lucene - Lucene による多言語コンテンツのインデックス作成方法は?

Question

lucene に基づく検索をサポートする APP があります。

または中国語と英語の両方の検索をサポートする他の方法はありますか?

score 0 · Accepted Answer

こんにちは、私はあなたの質問を完全には理解していませんが、あなたが達成したいことについて大まかな考えがあると思います.

言語を個別に検索する場合は、インデックス時に Lucene フィールド「言語」を追加することをお勧めします。索引付けしているテキストの言語に応じて。

を使用すると、漢字と英語の文字を簡単に区別できるため、

Character.UnicodeBlock:

たとえば、文字列 "str" の char 1 をチェックしたい場合:

if(Character.UnicodeBlock.of(**str[1]**) == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS)
{ do something }

このようにして、検索時に中国語の入力を同じ方法で検出し、言語フィールドの条件をクエリに追加できます。

混合検索が必要な場合は、各単語を分析してその翻訳をインデックスに保存するカスタムアナライザーを構築することをお勧めします。

1 に答える 1