Web上での単語の分布(基本的には単語の出現)を計算するスクリプトを書いています
私がやっていることは、検索エンジンのランダムなページを生成し、リンクを抽出し、それらのサイトから単語を計算することです。
私はグーグルを使用していましたが、CAPTCHAが私のリクエストをブロックしました。現在、ビングを使用しています。すべてが正常に機能しますが、奇妙な問題があります。
ある時点で、100〜300ページのようにスキャンした後、私のプログラムは何もしないことを完全にブロックします
ps xをチェックすると、何かをダウンロードしようとしているユーティリティw3mのプロセスがありますが、それはアイドリングのようなものです
プロセスを強制終了すると、スクリプトは問題なく実行され続け、何も起こらなかったようになります...
どうなり得るか?私が書いたいくつかのエラーコードは、あまりにも多くのリクエストをブロックしていますか?
私は非常に不法な解決策を考えていました
基本的に、5秒以上アイドリングしている場合はプロセスを強制終了できますが、どう思いますか。また、これをどのように行うことができますか?その時点でプログラム全体がブロックされるのではないかと心配しているので、実行中のプロセスをチェックし、ブロックされた場合はw3mプロセスを強制終了する外部スクリプトが必要です。
どうもありがとうございました。本当に感謝