0

その目的のためにsolrでクロスランゲージ検索を行っています。言語Aから言語Bへのクエリ翻訳を行っています。これらの翻訳はバイリンガル辞書に基づいています。私が現在直面している問題は、「クエリのいくつかの単語について、複数の翻訳があります」です。ここで、翻訳する正しい単語を入力する必要があります。この翻訳のあいまいさを解決するにはどうすればよいですか。

この場合、クエリが短すぎる可能性があるため、クエリのコンテキストを特定できません。私が見ることができる唯一の方法は、単語の確率発生です。単語が一緒に出現する確率を確認する方法はありますか?

4

1 に答える 1

0

単語が一緒に出現する確率を分析することを単純化した形のコンテキストと呼ぶと思いますが、クエリではエラーが発生しやすく、関連する結果を見逃す原因になると思います。これは、文脈に沿った完全な文では非常に難しい問題です。ユーザーが入力したクエリ文字列のあいまいさは、解決できないほどあいまいであることが予想されるため、それらを解決しようとすると、検索がイライラするほど予測不能になり、一部の概念を検索するのが困難または不可能になる場合さえあると思います。

私の推奨は、その価値のために、 SynonymFilterのような実装を使用して、両方の代替翻訳を検索することです。

したがって、英語の単語を検索している場合"fine"、スペイン語でクエリに展開する可能性があります"multa fino sutil"

同義語のこれらのリストをDisjunctionMaxQueryでラップして、必要以上にスコアリングに影響を与える同じ用語の複数の翻訳へのヒットから保護することはおそらく理にかなっています。だから検索すると

  • 「細かいところ」

討論での優れた議論や鉛筆の削り方を探しているかもしれませんし、ユーザーがどのようにクエリを入力するかを知っていれば、ピクニックに最適な場所や、交通違反の罰金の根拠を探しているのかもしれません。

したがって、次のように展開できます。

  • BooleanQuery、参加:
    • DisjunctionMaxQuery: 「ムルタ」、「フィノ」、「スティル」
    • DisjunctionMaxQuery: 「プンタ」、「モメント」、「ルガー」
于 2013-03-12T19:12:39.477 に答える