結果セットのクラスタリングを行うためにcarrot2を使用しようとしています。これに関していくつか質問があります。
a) Solr の特定のフィールドに基づいて、Solr/Lucene のドキュメントをクラスター化できますか? 名前、人名、地理的距離 (緯度、経度) に基づいて、特定のフィールドの重みでそれらをクラスター化しますか?
b) クラスタリングの私のユースケースは実際にはオンラインではなく、バッチのユースケースに近いものですが、最大 1K の制限がまだありますか? 結果の?
Carrot2 は、ドキュメントの自然なテキストのみに基づいてクラスタリングを実行します。意味のあるクラスタリングを行うには、人名が短すぎる可能性があります。Carrot2 は、地理的距離やその他の数値データには適していません。
1k の制限/推奨事項は、Carrot2 の設計目標に基づいています: テキストの小さなコレクション (検索結果など) を十分に高速にクラスター化して、プロセスをオンラインで実行できるようにすることです。Carrot2 は、約 1,000 個のドキュメントのコレクションには適していますが、数千のドキュメントを超えるとうまく拡張できません。