私はデータ マイニング プロジェクトに「取り組んでおり」、Google の検索結果を解析することにしました。実際に始める前に、経験豊富な皆さんに相談したいと思います。Google が結果を提供する方法について少し調査し、結果ページの構造を分析しました。大丈夫です。使用する正規表現とデータ構造はすでに把握しています。
検索が速すぎたため、その間にCAPTCHAに遭遇しました。ああ、皮肉。また、実際には結果が 1000 に制限されていることも発見しました。さて、これらのペリペティを回避できる方法はありますか。おそらく、URLフェッチの速度を遅くして最初のものを解決するか、 CAPTCHAに遭遇したときに報告して、入力を待つようにします。それはそれを行うかもしれませんが、他のものはどうですか? Google は、回避策として使用できる何らかの API を提供していますか? 彼らの code.* ページには見つかりませんでした。