私は非常に巨大なsolrインデックスを持っています。このようなドキュメントをより適切に表す用語ですべてのドキュメントにタグを付けたいと思います。このタイプのクラスタリング結果もドキュメントのタグ付けに分類されますか?
インデックス時間のドキュメントのタグ付けと、ニンジンのようなクエリ時間のドキュメントのタグ付けのどちらのアプローチが優れていますか?
私は非常に巨大なsolrインデックスを持っています。このようなドキュメントをより適切に表す用語ですべてのドキュメントにタグを付けたいと思います。このタイプのクラスタリング結果もドキュメントのタグ付けに分類されますか?
インデックス時間のドキュメントのタグ付けと、ニンジンのようなクエリ時間のドキュメントのタグ付けのどちらのアプローチが優れていますか?
クエリ時間には、クエリのコストが高くなるという明らかな欠点があります。
ただし、クエリ時のクラスタリング結果はおそらくより優れています。これは、その時点でより多くの情報が表示され、ユーザーのフィードバックを組み込むことができるためです。
技術的には、これはおそらくクラスター分析よりも頻繁なパターンマイニングであることに注意してください。
おそらく、データセット全体で頻繁にパターンをマイニングするこのバリアントを試してみてください。どのドキュメントがどの方法でタグ付けされたかを保存する必要さえないかもしれません.solrエンジンは、必要なときにそれらを再度取得できるように最適化されているはずです。
carrot2
あなたの質問から、 solr を使用してファセットに似たものを実装する方法を知りたいことがわかりました。
IMOでは、そのドキュメントのクラスター名を使用してドキュメントに多値フィールド tag
を追加し (例については、このスタック オーバーフローの質問を参照) 、Solr wiki のこちらとこちらで説明されているように、そのフィールドを使用してファセットを構築できます。