こんにちは私はそのようなタスクのソリューションを実装する方法を知りたいです:
平易な英語のテキストの500Mbファイルがあります。
単語の頻度に関する統計を収集したいのですが、さらに、各単語が正しく認識されていることを確認します(または単語の大部分)。
「彼女は大声で泣いた」という文の「泣く」は名詞として分類され、「泣かないでください」は統計に動詞を与えます。
また、固有名をフィルタリングして、別の辞書を形成することもできます。
他のタスクはもっと難しいでしょう。頻繁に出てくる単語の出現を見つけて、そのような出現のリストを作成したいと思います。
たとえば、「緑の草」、「美しい女の子」、「慎重に扱う」、「あなたは正しい」としましょう。正確に言うことができるように、どの単語シーケンスが言語で一緒に使用されることがよくありますか。
どうやって始めますか?このテーマに関するオープンなJavaツールと優れた本はありますか?