java - 分散テキストクラスタリングフレームワーク

Question

ドキュメントの完全なセットを処理するアルゴリズムをサポートする分散型テキストクラスタリングフレームワークが必要です。キャロット 2 http://project.carrot2.org/のようなアプリケーションは一連のドキュメントで動作し、メモリ内で計算を行うため、時間がかかり、パフォーマンスが非常に効率的です。lingo、STC、knn などのこの種のテキストクラスタリングアルゴリズムが分散環境で実行できる場合、それらははるかに高速になります。hazelcast http://www.hazelcast.com/のようなオープンソースツールを使用するフレームワークはありますか、またはより高速でパフォーマンス効率の高い特定のアプローチはありますか。

score 0 · Accepted Answer

これを行うツールはほとんどありませんが、Mahout はその 1 つです。Mahout は、推奨、クラスタリング、分類の 3 つの機械学習アルゴリズムをサポートしています。manning によるMahout in action book は、これを非常にうまく説明しています。Mahout と Hadoop 分散ファイルシステムがどのように機能するかについてのユースケースについて説明しているブログを参照してください。この例はレコメンデーションエンジンにより焦点を当てていますが、 mahout in action章 7で述べたように、クラスタリングにも適用できます。これに先駆けて、データマイニングの問題に対してこれらの各ツールがどのように適合するかを示すコンポーネントアーキテクチャも作成しました。

Mahout は、スタンドアロンモードでも Hadoop でも動作します。どちらを使用するかの決定は、マイニングする必要がある履歴データのサイズに要約されます。データサイズがテラバイトからペタバイトのオーダーの場合、通常は Hadoop で Mahout を使用します。Weka も同様のオープンソースプロジェクトです。これらはすべて、機械学習フレームワークと呼ばれるカテゴリに分類されます。お役に立てば幸いです。

score 0 · Accepted Answer

0

Apache Mahoutはあなたが探しているものです。

于 2012-06-20T17:52:00.473 に答える

java - 分散テキスト クラスタリング フレームワーク

2 に答える 2

Related

Reference

java - 分散テキストクラスタリングフレームワーク