9

今週のStackoverflowポッドキャストで、ジェフは2004年に、Googleに11万語の英語の単語を照会し、各単語のヒット数を含むデータベースを収集するスクリプトを作成したと述べました。彼らはこれをStackoverflowで使用します。たとえば、各質問ページの右側にある「関連」リストに使用します。

今日、同様のスクリプトを使用してこれらの1つを作成するのは難しいため(Joelが述べたように、「30,000語でドアをノックする」)、より最新の無料のデータベースを誰かが知っているかどうか疑問に思いました。 Googleの単語の頻度(たとえば、jquery、ruby、azureなど、それ以降確実に変更されたIT単語の場合)。

4

4 に答える 4

5

クイックグーグル検索(!)は、いくつかのヒットを見つけます。このリンクは有望に見えます:

しかし、それはITの言葉を対象としていません。

于 2008-12-04T09:26:08.583 に答える
3

これに答えるのは遅いかもしれませんが、私はあなたに別の方法を提案することができます。Googleから「ヒット数」を取得する代わりに、自分でその概算を計算します。テキストページ(コーパス)の大きなコレクションを取得し、その中の各単語の数を数えます。私はウィキペディアでこれを行いました。すべてのwikiページのダンプがあります。テキストを抽出して単語を数えるためにパーサーを書く必要があります。結果は、110Kを超える単語(少なくとも2M〜3M)のリストになります。Googleの検索結果に数字が本当に必要な場合は、単語のサンプルを取得してGoogleにクエリを実行し、計算された値をGoogleの値と一致するように正規化することができます。これがお役に立てば幸いです。

于 2009-05-20T11:52:04.327 に答える
1

Google によると、1 つの IP につき 1 日あたり 50,000 件のクエリを送信できます。友達同士で分け合うのは違法だとは思いません。

IP ごとの 1 日あたりのクエリで同様の問題がありましたが、まったく異なるアプローチで解決しました。

于 2008-12-18T15:11:56.850 に答える
0

友達/同僚の間でリストを分割し、十分に大きなタイムアウトを使用して、IPごとに1日あたり50,000リクエストを超えないようにし、結果をマージすることができます。このアプローチの合法性についてはよくわかりませんが、この方法を使用してGoogleの人々が「あなたのドアをノックする」可能性はかなり低いです。

:Skutaから提供されたデータに従って編集

于 2008-12-18T15:09:19.663 に答える