nlp - 純粋な統計、または自然言語処理エンジン？

Question

OpenNLPツールスイートよりも優れた結果をもたらす統計エンジンは何ですか？私が探しているのは、テキストからキーワードを選択し、それらの動詞と名詞の語幹を提供するエンジンです。おそらく、自然言語処理はここに行く方法ではありません。エンジンはさまざまな言語でも動作するはずです。

score 3 · Accepted Answer

あなたはおそらく、多くの異なる言語のステマーを開発したSnowballプロジェクトを探しています。

score 2 · Accepted Answer

Javaコードをお探しの場合は、スタンフォードのツールセットをお勧めします。彼らの品詞タグ付けは、英語、ドイツ語、中国語、アラビア語（私は英語でのみ使用しましたが）で機能し、（英語のみの）レンマタイザーが含まれています。

これらのツールはすべて無料で、精度はかなり高く、速度はJavaベースのソリューションとしてはそれほど悪くありません。主な問題は、APIの不安定さとメモリ使用量の多さです。

score 2 · Accepted Answer

LingPipeは、おそらく完全なNLPツールとして一見の価値があります。

ただし、動詞と名詞を見つけてそれらをステミングするだけの場合は、1）テキストをトークン化する2）POSタガーを実行する3）ステマーを実行するだけです。

スタンフォードのツールは私が信じる複数の言語でこれを行うことができ、NLTKはそれを試すための迅速な方法でしょう。

ただし、動詞や名詞を追いかけることに注意したいのですが、名詞句や複数名詞の名詞についてはどうしますか？理想的にはnlpパッケージでこれを処理できますが、その多くは作業しているドメインによって異なります。残念ながら、多くのNLPはデータの質に優れています。

score 1 · Accepted Answer

私はTreeTaggerで良い経験をしました：

それは使いやすく、スタンフォードのものより速く、そしてそこにある「良い」ステマー/タガーに属しています。トークン化/ステミング/タグ付けのすべての操作を一度に実行します。

4 に答える 4