Solr を使用してドキュメントを分析し、特定の基準に一致するすべてのドキュメントの単語頻度を取得することに興味があります。
termVectorComponent を試しましたが、個々のドキュメントの用語頻度のみを取得でき、ドキュメント グループの合計は取得できませんでした。
たとえば、次のデータがあるとします。
{
"id": "1",
"category": "cat1",
"includes": "The green car.",
},
{
"id": "2",
"category": "cat1",
"includes": "The red car.",
},
{
"id": "3",
"category": "cat2",
"includes": "The black car.",
}
カテゴリごとに単語の頻度数の合計を取得できるようにしたいと考えています。例えば
<category name="cat1">
<lst name="the">2</lst>
<lst name="car">2</lst>
<lst name="green">1</lst>
<lst name="red">1</lst>
</category>
<category name="cat2">
<lst name="the">1</lst>
<lst name="car">1</lst>
<lst name="black">1</lst>
</category>
ファセットを使用してみましたが、上記のように個々のドキュメントの単語数を組み合わせることができませんでした。termVector のサポートによって、インデックス全体で用語が使用されているドキュメントの頻度が示されることに気付きましたが、これは役に立ちません。ドキュメントのサブセットだけの合計頻度カウントが必要です。
Solr/Lucene からこの情報を取得する方法について提案がある人はいますか?
前もって感謝します。