ドキュメントの完全なセットを処理するアルゴリズムをサポートする分散型テキスト クラスタリング フレームワークが必要です。キャロット 2 http://project.carrot2.org/のようなアプリケーションは一連のドキュメントで動作し、メモリ内で計算を行うため、時間がかかり、パフォーマンスが非常に効率的です。lingo、STC、knn などのこの種のテキスト クラスタリング アルゴリズムが分散環境で実行できる場合、それらははるかに高速になります。hazelcast http://www.hazelcast.com/のようなオープンソース ツールを使用するフレームワークはありますか、またはより高速でパフォーマンス効率の高い特定のアプローチはありますか。
2 に答える
これを行うツールはほとんどありませんが、Mahout はその 1 つです。Mahout は、推奨、クラスタリング、分類の 3 つの機械学習アルゴリズムをサポートしています。manning によるMahout in action book は、これを非常にうまく説明しています。Mahout と Hadoop 分散ファイル システムがどのように機能するかについてのユース ケースについて説明しているブログを参照してください。この例はレコメンデーション エンジンにより焦点を当てていますが、 mahout in action章 7で述べたように、クラスタリングにも適用できます。これに先駆けて、データ マイニングの問題に対してこれらの各ツールがどのように適合するかを示すコンポーネント アーキテクチャも作成しました。
Mahout は、スタンドアロン モードでも Hadoop でも動作します。どちらを使用するかの決定は、マイニングする必要がある履歴データのサイズに要約されます。データ サイズがテラバイトからペタバイトのオーダーの場合、通常は Hadoop で Mahout を使用します。Weka も同様のオープン ソース プロジェクトです。これらはすべて、機械学習フレームワークと呼ばれるカテゴリに分類されます。お役に立てば幸いです。
Apache Mahoutはあなたが探しているものです。