約 300,000 語のテキスト ファイルがあります。各単語は 5 文字です。
それぞれの単語がインターネット上でどの程度固有のものであるかを判断できるようにしたいと考えています。
私が思いついたのは、その単語をグーグルで検索して、どれだけの結果が得られたかを確認することでした。残念ながら、これは TOS に反しています。
私は他の方法を考えようとしていましたが、いくつかのウェブサイトに多くのクエリを実行する必要があり、彼らがそれを高く評価してくれるとは思えません.
他にアイデアはありますか?プログラミング言語はそれほど重要ではありませんが、C# の方が好きです。