java - テキストマイニング/解析に推奨できる言語は何ですか？

Question

Webページでテキストマイニングを行っています。現在、私はJavaを使用していますが、私がやりたいことを実行するためのより適切な言語があるかもしれません。

私がやりたいことの例：

単語の文字の種類を、その部分（文字、数字、記号など）に基づいて、アルファベット、数字、英数字、記号など（さらに多くの種類があります）として決定します。

統計に基づいてストップワードを発見します。

統計といくつかの論理に基づいて、いくつかの文法クラス（動詞、名詞、前置詞、結合）を発見します。

私はPrologとRを使うことを考えていました（私はこれらの言語についてあまり知りません）が、それらがこれに適しているのか、あるいはおそらく別の言語がより適切であるのかわかりません。

どちらを使用できますか？Java用の優れたライブラリも大歓迎です。

score 4 · Accepted Answer

python。！彼らはこの地域にHELL-LOTTAライブラリを持っています。

しかし、私はプロローグとRについての知識を持っていません。しかし、間違いなくpyは、テキストマイニングやAI関連のJavaよりもはるかに優れています...

score 3 · Accepted Answer

Perlを強くお勧めします。多くのテキスト処理機能、Web 検索と解析、および大規模な機能などがあります。利用可能なモジュール (>23.000 および増加中) をCPANで確認してください。

score 1 · Accepted Answer

Apache SolrとNutchはそのためのフレームワークを提供し、さらに要件に合わせて拡張できると思います。

Javaにはいくつかの基本的なサポートがありますが、上記の2つの製品とは異なり、すばらしいものです。

4 に答える 4