まず最初に、ワークロード クラスタリングなどではなく、データ マイニング技術としてのドキュメント クラスタリングを意味していることに言及する必要があります。
最初から、私が持っているものを言います:
- 私はいつも書類を受け取ります。それらがニュースであるとしましょう(かなり似たようなものです)。
- 「ニュース」の新しいバッチを取得するたびに、それらを Solr インデックスに追加し、そのドキュメントのクラスター情報を取得する必要があります。この情報を DB に保存します (したがって、各ドキュメントのクラスターを知る必要があります)。
- クラスター定義サービス/プログラムが時々起動するのが待ちきれませんが、オンザフライでクラスターを定義する必要があります。
- 一定期間のみクラスターを取得できるようにしたい (たとえば、1 か月前にローダーだったドキュメントのクラスターのみを検索したい)。
- 私は毎日何万もの新しいドキュメントを持ち、全体のベースは数百万になります。
昔、私はいくつかのライブラリを使用していましたが(名前を思い出せません)、ドキュメントを入力として受け取り、結果としてクラスターIDを取得し、新しいクラスターだと思った場合は作成しました。しかし、それはゆっくりと機能しました(そして、私はそれの名前さえ思い出せません)。
Mahout に関する本を見つけましたが、何を読むべきか、何が欲しいのかまだわかりません。そして、おそらく、Solr 用の独自のプラグインを作成しない限り、Solr/Mahout でそれを行うことは不可能です。
そのようなシステムを構築する方法についての考えやアドバイスをいただければ幸いです。
前もって感謝します