solr - Solr が与える無関係な結果が多すぎる

Question

タグ付けシステムがあり、タグは次のようになります。

italian kitchen
chinese kitchen
japanese kitchen
russian kitchen
vegeterian kitchen

イタリアのキッチンを照会すると、イタリアのキッチンが一番上に表示されません。私は常にロシア語と日本語を取得し、その他の無関係な結果が得られます. Solr スキーマでは、タグフィールドの型は文字列です。なぜこれが起こっているのか分かりません。あなたのアイデアを私と共有できますか？

score 4 · Accepted Answer

「文字列」のフィールドタイプは、フィールドがトークン化されていないことを意味します。そのため、各フィールドには 1 つのトークン (渡された文字列全体) があります。そのため、フィールド全体で完全に一致するフレーズクエリがない限り、他の結果より関連性の高い結果はありません。

おそらく、デフォルトのスキーマでタイプ「テキスト」を使用することをお勧めします。これにより、フィールドがトークンに分割されます。IE では、「イタリアンキッチン」の代わりに、「イタリアン」と「キッチン」の両方の用語がフィールドにインデックス化されます。

score 1 · Accepted Answer

tokenizers のセクション、少なくとも最初の 2 つのセクションを読み通す必要があります。次に、Solr 4 を使用している場合は、管理インターフェイスに移動し、コアのセクションの下にある [分析] 画面を試してください。これにより、テキストをタイプ (猫) に入れ、実際にどのように分解されるかを確認できます。

さて、あなたは「イタリアンキッチン」をファセットカテゴリにして検索可能にしたいようですね。ファセット値は生成されたトークンから取得されるため、これは二重の課題です。そのため、それを文字列として使用する必要があります。その場合、私の提案は、catフィールドを文字列フィールドとして保持し、 copyFieldをトークン化された型を持つ cat_text に実行し (例のスキーマを参照)、 eDismax を使用してcat_textを含む複数のフィールドを検索することです。

score 0 · Accepted Answer

必ず実行してください。

q = your_field："イタリアンキッチン"

ではなく

q = your_field：italiankitchen

solr - Solr が与える無関係な結果が多すぎる

3 に答える 3

Related

Reference