4

Webページでテキストマイニングを行っています。現在、私はJavaを使用していますが、私がやりたいことを実行するためのより適切な言語があるかもしれません。

私がやりたいことの例:

単語の文字の種類を、その部分(文字、数字、記号など)に基づいて、アルファベット、数字、英数字、記号など(さらに多くの種類があります)として決定します。

統計に基づいてストップワードを発見します。

統計といくつかの論理に基づいて、いくつかの文法クラス(動詞、名詞、前置詞、結合)を発見します。

私はPrologとRを使うことを考えていました(私はこれらの言語についてあまり知りません)が、それらがこれに適しているのか、あるいはおそらく別の言語がより適切であるのかわかりません。

どちらを使用できますか?Java用の優れたライブラリも大歓迎です。

4

4 に答える 4

4

python。!彼らはこの地域にHELL-LOTTAライブラリを持っています。

しかし、私はプロローグとRについての知識を持っていません。しかし、間違いなくpyは、テキストマイニングやAI関連のJavaよりもはるかに優れています...

于 2011-10-25T18:40:30.303 に答える
3

Perlを強くお勧めします。多くのテキスト処理機能、Web 検索と解析、および大規模な機能などがあります。利用可能なモジュール (>23.000 および増加中) をCPANで確認してください。

于 2011-10-25T18:50:59.953 に答える
1

Apache SolrとNutchはそのためのフレームワークを提供し、さらに要件に合わせて拡張できると思います。

Javaにはいくつかの基本的なサポートがありますが、上記の2つの製品とは異なり、すばらしいものです。

于 2011-10-25T18:41:34.093 に答える