perl - Google の検索結果の解析

Question

私はデータマイニングプロジェクトに「取り組んでおり」、Google の検索結果を解析することにしました。実際に始める前に、経験豊富な皆さんに相談したいと思います。Google が結果を提供する方法について少し調査し、結果ページの構造を分析しました。大丈夫です。使用する正規表現とデータ構造はすでに把握しています。

検索が速すぎたため、その間にCAPTCHAに遭遇しました。ああ、皮肉。また、実際には結果が 1000 に制限されていることも発見しました。さて、これらのペリペティを回避できる方法はありますか。おそらく、URLフェッチの速度を遅くして最初のものを解決するか、 CAPTCHAに遭遇したときに報告して、入力を待つようにします。それはそれを行うかもしれませんが、他のものはどうですか? Google は、回避策として使用できる何らかの API を提供していますか? 彼らの code.* ページには見つかりませんでした。

score 9 · Accepted Answer

カスタム検索 APIがあります。

結果は json または XML で返されるため、正規表現を使用する必要さえありません。ただし、1 日 100 回を超える検索に対しては料金を支払う必要があります。

正確に何をしようとしていますか？たぶん、それを達成するためのより良い方法があります。

score 4 · Accepted Answer

常に最初に CPAN を見てください。

https://metacpan.org/pod/REST::Google

誰かがまだあなたの問題を解決していない場合、それは奇妙なものである可能性があります:-)

perl - Google の検索結果の解析

2 に答える 2

Related

Reference