0

こんにちは私はそのようなタスクのソリューションを実装する方法を知りたいです:

平易な英語のテキストの500Mbファイルがあります。

単語の頻度に関する統計を収集したいのですが、さらに、各単語が正しく認識されていることを確認します(または単語の大部分)。

「彼女は大声で泣いた」という文の「泣く」は名詞として分類され、「泣かないでください」は統計に動詞を与えます。

また、固有名をフィルタリングして、別の辞書を形成することもできます。

他のタスクはもっと難しいでしょう。頻繁に出てくる単語の出現を見つけて、そのような出現のリストを作成したいと思います。

たとえば、「緑の草」、「美しい女の子」、「慎重に扱う」、「あなたは正しい」としましょう。正確に言うことができるように、どの単語シーケンスが言語で一緒に使用されることがよくありますか。

どうやって始めますか?このテーマに関するオープンなJavaツールと優れた本はありますか?

4

4 に答える 4

5

これらのトピックの優れた入門書は、Foundations of Statistical Natural Language Processingです。

統計的自然言語処理の基礎

ソフトウェア側では、 Stanford Part-Of-Speech TaggerLingPipeなどを見ることができます。

于 2010-02-05T09:45:31.350 に答える
0

Introduction to Linguistic Annotation and Text Analyticsに興味があるかもしれません。この本は、テキスト注釈とテキスト分析のためのソフトウェア ツールに非常に重点を置いています。自然言語処理理論にはまったく焦点を当てていませんが、現在の NLP ソフトウェア ツールの優れた入門書として役立ちます。

(これに焦点を当てているため、おそらくすぐに時代遅れになることに注意してください。図書館から借りることができる場合は、購入する代わりに借りたほうがよいでしょう。)

于 2010-02-09T19:22:28.063 に答える
0

あなたの「他のタスク」は、マルコフ連鎖の問題のようです。2 つの単語の組み合わせに関心がある場合は、テキストを一度に 1 単語ずつ読み、キーが現在の単語と前の単語であり、値がカウントである辞書 (ハッシュ、テーブルなど) を作成する必要があります。 .

したがって、入力テキスト「家は家がある場所です」の場合、次のようになります

nil, home: 1   (ignore this)
home, is: 2
is, where: 1
where, the: 1
the, home: 1
于 2010-02-05T15:03:49.057 に答える