3

約のサイズの検索クエリのセットがあります。1000万。目標は、検索エンジンによって返されたすべてのヒット数を収集することです。たとえば、Google はクエリ「stackoverflow」に対して約 47,500,000 を返します。

問題はそれです:

1- Google API は、1 日あたり 100 クエリに制限されています。多くのカウントを取得する必要があるため、これは私のタスクにはあまり役に立ちません。

2- Bing API を使用しましたが、正確な数値が返されません。Bing UI に表示されるヒット数と一致するという意味で正確です。以前にこの問題に遭遇した人はいますか?

3- 検索クエリを検索エンジンに発行し、html を解析することは 1 つの解決策ですが、結果は CAPTCHA になり、この数のクエリには対応できません。

私が気にかけているのは、ヒット数だけであり、どんな提案も受け付けています。

4

2 に答える 2

4

ええと、これは私も知りたいと思っていたものなので、誰かがこれに答えてくれることを本当に望んでいましたが、誰もそうは思わないので、これらの提案を投げかけます.

100 リクエストごとに IP を変更する一連のプロキシを設定して、Google を一見別人としてクエリできるようにすることができます (大変な作業のようです)。または、ウィキペディアをダウンロードして、そこにあるデータを解析する何かを記述して、用語を検索したときにその用語が何ページに含まれるかを確認することもできます。もちろん、これは Web 全体よりもはるかに小さいデータセットですが、開始する必要があります。もう 1 つの考えられるデータ ソースは、Google の n-gram データです。これをダウンロードして解析すると、検索用語が何冊の本やページに含まれるかを確認できます。これらの方法を組み合わせることで、特定の検索用語の精度が向上する可能性があります。

確かに、これらの方法のどれも、Google のページ数を直接取得できるほど優れたものではありませんが、当然のことながら、それは無料で提供したくないデータです。

于 2012-02-08T17:40:57.080 に答える