2

約 300,000 語のテキスト ファイルがあります。各単語は 5 文字です。

それぞれの単語がインターネット上でどの程度固有のものであるかを判断できるようにしたいと考えています。

私が思いついたのは、その単語をグーグルで検索して、どれだけの結果が得られたかを確認することでした。残念ながら、これは TOS に反しています。

私は他の方法を考えようとしていましたが、いくつかのウェブサイトに多くのクエリを実行する必要があり、彼らがそれを高く評価してくれるとは思えません.

他にアイデアはありますか?プログラミング言語はそれほど重要ではありませんが、C# の方が好きです。

4

2 に答える 2

2

あなたの言葉にスラングが含まれていない場合は、パブリック ドメインの書籍を参照することをお勧めします。ここでの問題は、これらの本のほとんどが古いものになるということです。そのため、単語がどれだけ人気があるか(または私が推測したように) のスナップショットを実際に取得することになります。プラス面は、これらの書籍がテキスト ファイル形式で自由に入手できるため、簡単にデータをマイニングできることです。

米国にいて Project Gutenbergを使用して書籍を入手する予定がある場合、Web サイトは人間のユーザーのみを対象としているという規則があることに注意してください。mirror を介して同じデータを取得する方法を説明するページがあります。

于 2012-12-16T01:42:35.053 に答える
2

「本で」頻度を調べるには、 Google Ngram データセットを使用できますが、それは「インターネット用」ではありません。これが学術目的の場合、Bing の代替手段も機能する可能性があり、インターネットの頻度に基づいています。

于 2012-12-16T01:48:00.333 に答える