0

まず最初に、ワークロード クラスタリングなどではなく、データ マイニング技術としてのドキュメント クラスタリングを意味していることに言及する必要があります。

最初から、私が持っているものを言います:

  • 私はいつも書類を受け取ります。それらがニュースであるとしましょう(かなり似たようなものです)。
  • 「ニュース」の新しいバッチを取得するたびに、それらを Solr インデックスに追加し、そのドキュメントのクラスター情報を取得する必要があります。この情報を DB に保存します (したがって、各ドキュメントのクラスターを知る必要があります)。
  • クラスター定義サービス/プログラムが時々起動するのが待ちきれませんが、オンザフライでクラスターを定義する必要があります。
  • 一定期間のみクラスターを取得できるようにしたい (たとえば、1 か月前にローダーだったドキュメントのクラスターのみを検索したい)。
  • 私は毎日何万もの新しいドキュメントを持ち、全体のベースは数百万になります。

昔、私はいくつかのライブラリを使用していましたが(名前を思い出せません)、ドキュメントを入力として受け取り、結果としてクラスターIDを取得し、新しいクラスターだと思った場合は作成しました。しかし、それはゆっくりと機能しました(そして、私はそれの名前さえ思い出せません)。

Mahout に関する本を見つけましたが、何を読むべきか、何が欲しいのかまだわかりません。そして、おそらく、Solr 用の独自のプラグインを作成しない限り、Solr/Mahout でそれを行うことは不可能です。

そのようなシステムを構築する方法についての考えやアドバイスをいただければ幸いです。

前もって感謝します

4

2 に答える 2

0

カスタム Solr プラグインは必要ないと思います。これは、新しいドキュメントの分類は、「ニュース」の通常のインデックス作成プロセス中に決定できるため、すべての Solr ドキュメントに通常のフィールドとして追加するだけでよいためです。

Mahout を使用したクラスタリングと分類に関して言えば、Mahout in Actionブックが手始めとして適切なリソースであると言えます。

乾杯。

于 2012-09-13T07:44:57.873 に答える