2

OpenNLPツールスイートよりも優れた結果をもたらす統計エンジンは何ですか?私が探しているのは、テキストからキーワードを選択し、それらの動詞と名詞の語幹を提供するエンジンです。おそらく、自然言語処理はここに行く方法ではありません。エンジンはさまざまな言語でも動作するはずです。

4

4 に答える 4

3

あなたはおそらく、多くの異なる言語のステマーを開発したSnowballプロジェクトを探しています。

于 2011-07-10T18:07:43.817 に答える
2

Javaコードをお探しの場合は、スタンフォードのツールセットをお勧めします。彼らの品詞タグ付けは、英語、ドイツ語、中国語、アラビア語(私は英語でのみ使用しましたが)で機能し、(英語のみの)レンマタイザーが含まれています。

これらのツールはすべて無料で、精度はかなり高く、速度はJavaベースのソリューションとしてはそれほど悪くありません。主な問題は、APIの不安定さとメモリ使用量の多さです。

于 2011-07-10T13:09:59.550 に答える
2

LingPipeは、おそらく完全なNLPツールとして一見の価値があります。

ただし、動詞と名詞を見つけてそれらをステミングするだけの場合は、1)テキストをトークン化する2)POSタガーを実行する3)ステマーを実行するだけです。

スタンフォードのツールは私が信じる複数の言語でこれを行うことができ、NLTKはそれを試すための迅速な方法でしょう。

ただし、動詞や名詞を追いかけることに注意したいのですが、名詞句や複数名詞の名詞についてはどうしますか?理想的にはnlpパッケージでこれを処理できますが、その多くは作業しているドメインによって異なります。残念ながら、多くのNLPはデータの質に優れています。

于 2011-07-09T00:03:38.447 に答える
1

私はTreeTaggerで良い経験をしました:

http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

それは使いやすく、スタンフォードのものより速く、そしてそこにある「良い」ステマー/タガーに属しています。トークン化/ステミング/タグ付けのすべての操作を一度に実行します。

于 2011-07-10T12:34:15.227 に答える