Solr でドキュメントのインデックスを作成しています。ドキュメントは非科学的です。
各ドキュメントにリンクされたカテゴリがあり、教育に使用できます。追加時に新しいドキュメントのカテゴリを割り当てたいと思います。すべてのインデックスを再構築することなく、ドキュメントが常に追加されます。
また、ドキュメントは同じものでもソースが異なる可能性があるため、ドキュメントのクラスタリングを行いたいと考えています。したがって、ドキュメントが追加されると、過去 N 日間にそのようなトピックが既にあるかどうかを検索できます。ある場合は、クラスター ID を保存します。
インデックスのサイズは約 50 万ドキュメントと上昇傾向にあるため、速度が重要です。
したがって、新しいドキュメントごとに計算したいと思います: カテゴリ ID (事前定義されたドキュメントを使用したトレーニングに基づく)、クラスター ID (インデックス全体ではなく、N 日間のみ一致)。
SOLRで作ることは可能ですか?または、別のソリューションを作成することをお勧めします (はいの場合、どのソリューションを使用しますか?)