solr - Solrでのドキュメントのクラスタリングと分類?

Question

Solr でドキュメントのインデックスを作成しています。ドキュメントは非科学的です。

各ドキュメントにリンクされたカテゴリがあり、教育に使用できます。追加時に新しいドキュメントのカテゴリを割り当てたいと思います。すべてのインデックスを再構築することなく、ドキュメントが常に追加されます。

また、ドキュメントは同じものでもソースが異なる可能性があるため、ドキュメントのクラスタリングを行いたいと考えています。したがって、ドキュメントが追加されると、過去 N 日間にそのようなトピックが既にあるかどうかを検索できます。ある場合は、クラスター ID を保存します。

インデックスのサイズは約 50 万ドキュメントと上昇傾向にあるため、速度が重要です。

したがって、新しいドキュメントごとに計算したいと思います: カテゴリ ID (事前定義されたドキュメントを使用したトレーニングに基づく)、クラスター ID (インデックス全体ではなく、N 日間のみ一致)。

SOLRで作ることは可能ですか？または、別のソリューションを作成することをお勧めします (はいの場合、どのソリューションを使用しますか?)

score 1 · Accepted Answer

現在、solr 6.1 および lucene 6.1 にはこの機能があります。それは棚から knn とナイーブベイを提供します。これは、solr での使用方法に関する素晴らしい投稿です: solr ベースのテキスト分類

score 0 · Accepted Answer

Carrot、Result Clusteringをご覧ください。しかし、それはあなたが求めているものではないかもしれません。

したがって、この時点で 2 つのオプションがあると思います。

2 に答える 2