OpenNLPツールスイートよりも優れた結果をもたらす統計エンジンは何ですか?私が探しているのは、テキストからキーワードを選択し、それらの動詞と名詞の語幹を提供するエンジンです。おそらく、自然言語処理はここに行く方法ではありません。エンジンはさまざまな言語でも動作するはずです。
4 に答える
あなたはおそらく、多くの異なる言語のステマーを開発したSnowballプロジェクトを探しています。
Javaコードをお探しの場合は、スタンフォードのツールセットをお勧めします。彼らの品詞タグ付けは、英語、ドイツ語、中国語、アラビア語(私は英語でのみ使用しましたが)で機能し、(英語のみの)レンマタイザーが含まれています。
これらのツールはすべて無料で、精度はかなり高く、速度はJavaベースのソリューションとしてはそれほど悪くありません。主な問題は、APIの不安定さとメモリ使用量の多さです。
LingPipeは、おそらく完全なNLPツールとして一見の価値があります。
ただし、動詞と名詞を見つけてそれらをステミングするだけの場合は、1)テキストをトークン化する2)POSタガーを実行する3)ステマーを実行するだけです。
スタンフォードのツールは私が信じる複数の言語でこれを行うことができ、NLTKはそれを試すための迅速な方法でしょう。
ただし、動詞や名詞を追いかけることに注意したいのですが、名詞句や複数名詞の名詞についてはどうしますか?理想的にはnlpパッケージでこれを処理できますが、その多くは作業しているドメインによって異なります。残念ながら、多くのNLPはデータの質に優れています。
私はTreeTaggerで良い経験をしました:
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
それは使いやすく、スタンフォードのものより速く、そしてそこにある「良い」ステマー/タガーに属しています。トークン化/ステミング/タグ付けのすべての操作を一度に実行します。