java - 品詞タグ付け-どこから始めればよいですか？

Question

こんにちは私はそのようなタスクのソリューションを実装する方法を知りたいです：

平易な英語のテキストの500Mbファイルがあります。

単語の頻度に関する統計を収集したいのですが、さらに、各単語が正しく認識されていることを確認します（または単語の大部分）。

「彼女は大声で泣いた」という文の「泣く」は名詞として分類され、「泣かないでください」は統計に動詞を与えます。

また、固有名をフィルタリングして、別の辞書を形成することもできます。

他のタスクはもっと難しいでしょう。頻繁に出てくる単語の出現を見つけて、そのような出現のリストを作成したいと思います。

たとえば、「緑の草」、「美しい女の子」、「慎重に扱う」、「あなたは正しい」としましょう。正確に言うことができるように、どの単語シーケンスが言語で一緒に使用されることがよくありますか。

どうやって始めますか？このテーマに関するオープンなJavaツールと優れた本はありますか？

score 5 · Accepted Answer

これらのトピックの優れた入門書は、Foundations of Statistical Natural Language Processingです。

ソフトウェア側では、 Stanford Part-Of-Speech TaggerやLingPipeなどを見ることができます。

score 0 · Accepted Answer

Introduction to Linguistic Annotation and Text Analyticsに興味があるかもしれません。この本は、テキスト注釈とテキスト分析のためのソフトウェアツールに非常に重点を置いています。自然言語処理理論にはまったく焦点を当てていませんが、現在の NLP ソフトウェアツールの優れた入門書として役立ちます。

(これに焦点を当てているため、おそらくすぐに時代遅れになることに注意してください。図書館から借りることができる場合は、購入する代わりに借りたほうがよいでしょう。)

score 0 · Accepted Answer

あなたの「他のタスク」は、マルコフ連鎖の問題のようです。2 つの単語の組み合わせに関心がある場合は、テキストを一度に 1 単語ずつ読み、キーが現在の単語と前の単語であり、値がカウントである辞書 (ハッシュ、テーブルなど) を作成する必要があります。 .

したがって、入力テキスト「家は家がある場所です」の場合、次のようになります

nil, home: 1   (ignore this)
home, is: 2
is, where: 1
where, the: 1
the, home: 1

java - 品詞タグ付け-どこから始めればよいですか？

4 に答える 4

Related

Reference