目処がたったのでポスト。
2週間ほど前から地元ホールのデータサイトがGoogleのreCAPTCHAを採用、スクレイピングが弾かれるようになった(´・ω・`)
Googleの最新版は人の操作がない。文字の認識とかしなくて良い。プログラムが自動判定、人かbotか見分けてる模様。そもそも私のスクレイピングはhttpsのAPIリクエストを呼ぶだけで、GoogleのreCAPTCHAを実行してないからAPIが通らない(そりゃそーだ)。

VPSでのスクレイピングを諦めて、自宅PCのブラウザからアクセスする分には問題ない。ブラウザでの閲覧を自動化しその中でAPIを呼ぶのは本物と同じだからね。

で、自動化できる奴がWebDriverと分かりFireFox版はgeckodriver(geckoはFireFoxの中身?の名前)を使えば良いことも分かった。これは小さなAPI受付サーバーになっていてブラウザの起動、URLの呼び出し、コンテンツの把握、キー入力諸々やれる。

WebDriverをPerlから操作できるモジュール。
WebDriver::Tiny - Selenium 2.0 bindings for Perl - metacpan.org metacpan.org/dist/WebDriver-Ti

ブラウザからアクセスするのにもう一つ課題がある。VPSではプロキシ経由でAPIを呼んでました。ブラウザではどうする?契約してる有償プロキシはユーザー名とパスワードの設定があり、ブラウザでアクセスする際に入力画面が出てくる。この入力画面へのキー入力方法がない。というのもアクセスの延長でプロキシのユーザー/パスワード画面が表示される。つまりアクセスが未完了でキー入力の余地がない。

プロキシの説明(契約先)を読むうちに、指定のIPアドレスからならフリーパスで使える設定を見つけた。しかもプロキシの会社のAPIを使えば「プログラムから設定変更できる」←重要
自宅PCからAPIを呼んでIPアドレス教えてくれる奴まであり、至れり尽くせり状態。起動時に自宅のIPアドレスを取得して、プロキシの設定へ自宅IPを入れてフリーパス状態に。それからWebDriverを使うとユーザ/パスワード設定画面が表示されない♪

自宅にいない日も常に動作させる必要があるため、PCを24時間運転することに。電気代でVPSを借りてお釣りが来るから自宅PCで一通りテストしたらVPS借りて移行予定。

パチンコとパチスロと両方とも自宅PCでデータ収集できるようになったので1週間連続テスト開始。プログラム自体は1回ずつ終わるので、タスクスケジューラで起動させてます。

VPSで収集させてみると最安プランで性能が悪いためか処理が中断するケースが多発する(´・ω・`)
一つ上のプランでは2万円/年越えだから最安でなんとかしたいなあ。

自宅PCは8コア32GBで動作させてたから快適だったんだ。2コア1GBじゃメモリ100%貼り付きになるよなあ(´・ω・`)

フォロー

お試し期間残りで色々試して終了しようっと

よさそうな中古ノートPC(1万6千円)が見つかる。
VPSで同じ条件の料金は
メモリ8GB→11万円/年
4コア→5万4千円/年
あとはコイツで動作するのかどうか(大丈夫か?)

VPSのほうはすっかり諦めてお試し期間中に解約しちゃった。この「お試し期間2週間」はホントに助かる(ほっ)。
さくらのVPS for Windows Server vps.sakura.ad.jp/windows/

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。