13

botg Machine Learningと辞書メソッドを使用するために、テキストマイニングに最適なオープンソースのJavaベースのフレームワークを知りたいです。

私はMalletを使用していますが、ドキュメントがそれほど多くなく、すべての要件に適合するかどうかわかりません。

4

7 に答える 7

6

正直なところ、ここで提示されたいくつかの回答は非常に優れていると思います。ただし、私の要件を満たすために、Apache UIMAClearTKを使用することにしました。いくつかの ML メソッドをサポートしており、ライセンスの問題はありません。さらに、他の ML 方法論のラッパーを作成することもできます。また、非常によく整理された高速な UIMA フレームワークを利用しています。

興味深い回答をありがとうございました。

敬具、ウクライナ

于 2010-03-04T15:14:22.823 に答える
4

特殊なテキスト マイニング フレームワークではありませんが、Wekaには、SVM、kNN、多項 NaiveBayes など、テキスト マイニング タスクで通常使用される多数の分類子があります。

StringToWordVectorまた、TF/IDF 変換を実行できるフィルターなど、テキスト データを処理するフィルターもいくつかあります。

詳細については、Weka wiki Web サイトを参照してください。

于 2010-02-20T18:49:17.403 に答える
2

Java Open Source NLP と Text Mining tools を見てください。

于 2010-02-20T19:10:51.637 に答える
2

テキスト マイニング (およびその他の関連) タスクには、人間の言語を言語学的に分析するための Java ライブラリ スイートであるLingPipe使用しました。

これは非常によく文書化されたソフトウェア パッケージであり、このサイトには名前付きエンティティの認識など、LingPipe で特定のタスクを実行する方法を徹底的に説明するいくつかのチュートリアルが含まれています。また、ソフトウェア (または NLP 関連のタスク) に関する質問を投稿できるニュースグループもあり、パッケージの作成者からの迅速な回答を得ることができます。もちろんブログも。

ソース コードも非常に理解しやすく、よく文書化されています。これは、私にとって常に大きなプラスです。

機械学習アルゴリズムに関しては、ナイーブ ベイズから条件付きランダム フィールドまで、たくさんあります。一方、辞書照合アルゴリズムには、 Aho-Corasich アルゴリズム (このタスクの非常に高速なアルゴリズム) の実装であるExactDicitonaryChunkerがあります。

要するに、これは Java 用の最高の NLP ソフトウェア パッケージの 1 つだと思います (私はそこにあるすべてのパッケージを使用したわけではないので、これが最高だとは言えません)。あなたは手元にあります。

于 2010-02-20T20:32:27.150 に答える
2

あなたはすでにGATEについて知っているかもしれません: http://gate.ac.uk/

...しかし、それは私たちが (私の日常の仕事で) さまざまなテキスト マイニングの問題に使用してきたものです。それはかなり柔軟でオープンです。

于 2010-02-20T22:49:06.657 に答える
1

OpenNLP MaxEnt http://sourceforge.net/projects/maxent/をコース用に 1 回使用して、CoNLL データ用の最大エントロピー名前付きエンティティ認識エンジンを構築しました。

ただし、カスタム perl スクリプトを使用した多くのデータの前処理が必要であり、すべての機能が適切な数値ベクトルに抽出されます。

于 2010-02-20T22:54:04.617 に答える
0

lucene を使用して、インターネットからのライブ ストリームを処理します。ネイティブの Java API があります。

http://lucene.apache.org/java/docs/

その後、lucene の上で動作する macien 学習アルゴリズムの束である mahout を使用できます。

http://lucene.apache.org/mahout/

于 2010-02-20T19:46:22.107 に答える