10

大量の英語テキスト(約10,000ドキュメント)のテキスト(前)処理(インデックス作成、xmlタグ付け、トピック検出など)に焦点を当てた以前のJavaプロジェクトでは、LingPipe、StanfordのNER、RiTa、およびさまざまな文類似性ライブラリを使用しました。合計すると1GBを超えるテキストになります)。私は悪いJavaプログラマーかもしれませんが、別のコーパスに切り替えると、多くのコードを入力し、多くのライブラリを使用していることに気付きます。全体として、私はその仕事のためのより良いツールがあるかもしれないと感じています。

私の質問は、情報検索/言語処理のためにPythonとNLTKに切り替えることでメリットが得られるかということだと思います。それとも、それを非常に主観的にするのに十分な長所と短所がありますか?NLTKはすぐに習得できるほど直感的ですか?

手を汚してしまいますが、数日はパソコンにアクセスできなくなります。

4

2 に答える 2

12

NLTKは自然言語処理に適しています。データマイニングプロジェクトに使用しました。独自のアナライザーをトレーニングできます。学習曲線は急ではありません。

NLTKは、アナライザーのトレーニング用に膨大なコーパスを取得しました。独自のデータセットを提供することもできます。たとえば、品詞がタグ付けしたジャーナルなどです。

Pythonはテキスト処理に非常に適しているため、試してみてください。さらに、オンラインチュートリアルがあります

python2.xバージョンを使用することを忘れないでください。Python2.6を試してください。NLTKはPython3.xではうまくいかない可能性があります

于 2011-04-08T02:02:36.287 に答える
7

NLPの基本をすでに理解している場合は、NLTKを簡単に理解できるはずです。たくさんのドキュメントと2冊の本があり、streamhacker.comにたくさんの記事とチュートリアルを書いています。また、Javaパッケージから失いたくないものがある場合は、理論的にはJython(およびおそらくexecnet)を使用してNLTKと組み合わせることができます。

パターンライブラリもご覧ください。

于 2011-04-09T15:09:41.703 に答える