3

Solrファセットを利用したタグクラウドのロジックの背後に立ち往生しているようです。まず、OpenNLPを使用してドキュメントを解析し、そこから関連する単語を取得しているため、すべてのドキュメントがn個の単語に分割されます。そして、基本的に私のSolrの応答は次のようになります。

<docID>
<title>My Doc Title</title>
<content>My Doc Title</content>
<date_published>My Doc Title</date_published>
</docID>

ここに言葉を統合する方法があるに違いないと思います。私は最初にこのようなことを考えました:

<docID>
<title>My Doc Title</title>
<content>My Doc Title</content>
<date_published>My Doc Title</date_published>
<words>word</words>
<words1>word1</words1>
<words2>word2</words2>
<words3>word3</words3>
<wordsN>wordN</wordsN>
</docID>

しかし、docIDごとにいくつの単語フィールドを取得するかわからないため、ファセットは不可能です。その場合、ファセットはフィールド間で実行する必要があります(これは可能かどうかさえわかりません)。考えられる答えを調べようとしていますが、行き詰まっているようです...最後に、インデックスにある各ドキュメントを取得するn語のファセットを作成する必要があります。考えていただければ幸いです。

4

1 に答える 1

2

多値で、ドキュメントごとに単語のリストを格納する単一の単語フィールドを使用することをお勧めします。

word\d+ フィールドの数が無制限であると、事態が複雑になります。

単一の単語の多値フィールドを使用すると、タグ クラウドを作成するのに十分な頻度とともにすべての単語を取得できます。

于 2011-04-21T07:26:23.757 に答える