1

Solr でドキュメントのインデックスを作成しています。ドキュメントは非科学的です。

各ドキュメントにリンクされたカテゴリがあり、教育に使用できます。追加時に新しいドキュメントのカテゴリを割り当てたいと思います。すべてのインデックスを再構築することなく、ドキュメントが常に追加されます。

また、ドキュメントは同じものでもソースが異なる可能性があるため、ドキュメントのクラスタリングを行いたいと考えています。したがって、ドキュメントが追加されると、過去 N 日間にそのようなトピックが既にあるかどうかを検索できます。ある場合は、クラスター ID を保存します。

インデックスのサイズは約 50 万ドキュメントと上昇傾向にあるため、速度が重要です。

したがって、新しいドキュメントごとに計算したいと思います: カテゴリ ID (事前定義されたドキュメントを使用したトレーニングに基づく)、クラスター ID (インデックス全体ではなく、N 日間のみ一致)。

SOLRで作ることは可能ですか?または、別のソリューションを作成することをお勧めします (はいの場合、どのソリューションを使用しますか?)

4

2 に答える 2

1

現在、solr 6.1 および lucene 6.1 にはこの機能があります。それは棚から knn とナイーブ ベイを提供します。これは、solr での使用方法に関する素晴らしい投稿です: solr ベースのテキスト分類

于 2016-06-30T15:11:40.497 に答える
0

CarrotResult Clusteringをご覧ください。しかし、それはあなたが求めているものではないかもしれません。

したがって、この時点で 2 つのオプションがあると思います。

  • Solr プラグインを作成する (Carrot またはその他のプラグインに基づく)
  • ドキュメントを追加する前に手動でクエリを実行する
于 2014-08-20T07:48:15.530 に答える