大量の英語テキスト(約10,000ドキュメント)のテキスト(前)処理(インデックス作成、xmlタグ付け、トピック検出など)に焦点を当てた以前のJavaプロジェクトでは、LingPipe、StanfordのNER、RiTa、およびさまざまな文類似性ライブラリを使用しました。合計すると1GBを超えるテキストになります)。私は悪いJavaプログラマーかもしれませんが、別のコーパスに切り替えると、多くのコードを入力し、多くのライブラリを使用していることに気付きます。全体として、私はその仕事のためのより良いツールがあるかもしれないと感じています。
私の質問は、情報検索/言語処理のためにPythonとNLTKに切り替えることでメリットが得られるかということだと思います。それとも、それを非常に主観的にするのに十分な長所と短所がありますか?NLTKはすぐに習得できるほど直感的ですか?
手を汚してしまいますが、数日はパソコンにアクセスできなくなります。