Lucene / Solr 4を実行して、さまざまな機能と「クラスタリング」をテストしています。現在、100万のドキュメントが索引付けされています。すべてのドキュメントには次のフィールドがあります。
ID (unique Key) Example1: 10245
Example2: 24974
TOPIC (Keywords of the document) Example1: "disaster/japan/nuclear power station"
Example2: "world/japan/nuclear power"
HEADLINE (1 line of text): Example1: "explosion at nuclear power plant in japan"
Example2: "news about japans nuclear power plant"
TEXT (the full text): "In the Japanese nuclear power plant in Fukushima..."
すべてのフィールドにインデックスが付けられて保存されます。TEXTはインデックスが付けられているだけで、保存されていません。次の特定の構成を使用します。
<str name="carrot.title">TOPIC</str>
<str name="carrot.snippet">HEADLINE</str>
ご覧の例を見ると、トピックは異なりますが、日本は同じです。このようにsolr/carrotを構成することは可能ですか?example1とexample2は1つのクラスターに含まれますか?一致する「日本」のために?!
さらに、「ニュース/原子力」のような3番目のトピックがあり、内部に「日本」はありませんが、HEADLINEとTEXTは「日本の発電所」という言葉を使用しています。これらの3つのニュースを1つのクラスターで受信するには、どのsolr / carrot構成が関係しますか?
ありがとうございました!