最後に使用したのはweka です。私が最後に聞いたのは、Java がそのための API (JDM) を考え出すというものでした。誰でもツールの経験を共有できますか? 私は主に、分類/クラスタリング用のツールを使用することに関心があり (weka はここでまともな仕事をします)、ツールは優れた API サポートを備えている必要があります。
7 に答える
テキスト分類には Weka を使用しました。良かった。本も素敵です。データ表現を維持し、アルゴリズムを変更できるフレームワークのアイデアは素晴らしいです。
私はRapidMiner (ドルトムント大学の以前の YALE) を使用しています。これは Java ベースのオープン ソース ツールであり、一般的な分類子/クラスタリング メソッドのほとんどを実装しています。また、Weka ツールキット用に実装されたアルゴリズムも同梱されているため、より多くのオプションがあります。非常に使いやすい GUI と Java ベースの API が付属しています。
Weka は人気のあるデータ マイニング プラットフォームであり、分類、クラスタリングなどのために多くのテキスト アルゴリズムが実装されています。迅速なプロトタイピング、つまりシステムをすばやくセットアップし、意図したとおりに機能することを検証するのに最適です。
ただし、Weka には 2 つの主な問題があります。1 つ目は、GPL ライセンスの下で配布されていることです。つまり、商用パッケージの一部として使用したり、変更したり、変更を公開したりすることはできません。また、Weka のもう 1 つの弱点は、大量のデータを処理できないことです。データがコンピュータのメモリに収まらない場合は、問題があります。
これらの問題は両方とも、Apache Mahoutパッケージで解決されています。これは比較的新しく、いくつかの機能が欠けていますが、データ マイニングの問題によっては、適切な選択になる場合があります。
毎年行われるKDnuggetsPolls2007、2008、および2009によると、RapidMinerは、世界中のデータマイニングエキスパートの間で最も広く使用されているオープンソースデータマイニングソリューションです 。KDnuggetsDataMining Tool Poll 2009
RapidMinerはオープンソースで100%Javaであり、RapidMinerははるかに柔軟性があり、Wekaよりもはるかに多くの機能を提供します。
分類とクラスタリングのために開発したいくつかのソフトウェアで Weka を使用しました。私はデータ マイニングの専門家ではありませんが、他の多くの製品と一緒にデータ マイニングを評価したチームは確かに自分たちのことを知っており、一般的に非常に高価な市販のものを使用することに慣れています。
Java で開発された、トランザクション データベースまたはシーケンス データベースからの頻出パターンおよびアソシエーション ルール マイニングに特化した独自のソフトウェアを使用しています。
http://www.philippe-fournier-viger.com/spmf/
他の一般的なデータ マイニング ソフトウェアには見られないいくつかのアルゴリズムを含む 46 のアルゴリズムを提供します。GUI版とソースコード版があります。
Orange データ マイニング ツールキットをチェックしてみてください。ドラッグ アンド ドロップ GUI と Python API が付属しています。