Webページでテキストマイニングを行っています。現在、私はJavaを使用していますが、私がやりたいことを実行するためのより適切な言語があるかもしれません。
私がやりたいことの例:
単語の文字の種類を、その部分(文字、数字、記号など)に基づいて、アルファベット、数字、英数字、記号など(さらに多くの種類があります)として決定します。
統計に基づいてストップワードを発見します。
統計といくつかの論理に基づいて、いくつかの文法クラス(動詞、名詞、前置詞、結合)を発見します。
私はPrologとRを使うことを考えていました(私はこれらの言語についてあまり知りません)が、それらがこれに適しているのか、あるいはおそらく別の言語がより適切であるのかわかりません。
どちらを使用できますか?Java用の優れたライブラリも大歓迎です。