1

私はデータ マイニング プロジェクトに「取り組んでおり」、Google の検索結果を解析することにしました。実際に始める前に、経験豊富な皆さんに相談したいと思います。Google が結果を提供する方法について少し調査し、結果ページの構造を分析しました。大丈夫です。使用する正規表現とデータ構造はすでに把握しています。

検索が速すぎたため、その間にCAPTCHAに遭遇しました。ああ、皮肉。また、実際には結果が 1000 に制限されていることも発見しました。さて、これらのペリペティを回避できる方法はありますか。おそらく、URLフェッチの速度を遅くして最初のものを解決するか、 CAPTCHAに遭遇したときに報告して、入力を待つようにします。それはそれを行うかもしれませんが、他のものはどうですか? Google は、回避策として使用できる何らかの API を提供していますか? 彼らの code.* ページには見つかりませんでした。

4

2 に答える 2

9

カスタム検索 APIがあります。

結果は json または XML で返されるため、正規表現を使用する必要さえありません。ただし、1 日 100 回を超える検索に対しては料金を支払う必要があります。

正確に何をしようとしていますか?たぶん、それを達成するためのより良い方法があります。

于 2011-03-30T07:14:21.210 に答える
4

常に最初に CPAN を見てください。

https://metacpan.org/pod/REST::Google

誰かがまだあなたの問題を解決していない場合、それは奇妙なものである可能性があります:-)

于 2011-03-30T10:29:42.613 に答える