lucene - lucenene を使用した多言語フィールドの索引付け

Question

lucene で索引付けする多言語文書レコードがあります。つまり、各ドキュメントレコードは 1 つの言語ですが、異なる言語レコードが存在します。多言語クエリで検索できるように、それらを 1 つのインデックスに保持するつもりです。現在、ドキュメントレコードは次のような 1 つのデータ入力ファイルにあります。

<DOCID>1<\DOCID>
<LANGUAGE>CHINESE<\LANGUAGE>
<TEXT>中文内容<\TEXT>

<DOCID>2<\DOCID>
<LANGUAGE>ENGLISH<\LANGUAGE>
<TEXT>Some English text<\TEXT>

私の質問は: 1 つのインデックスライターで同じフィールドに異なるアナライザーを使用する方法はありますか? または、ドキュメントレコードを異なる言語の 2 つの入力ドキュメントに分割して、異なるインデックスライターを適用し、同じインデックスに追加する必要がありますか?

アドバイスありがとうございます！

score 1 · Accepted Answer

IndexWriter.addDocumentを呼び出すときに、ドキュメントに使用するアナライザーを提供できます。

ただし、異なる言語のテキストを異なるフィールドに分割すると、おそらくより多くのメリットが得られます。これにより、間違った言語でのヒットが防止AnalyzerWrapperされ、正しい言語を検出した後に適切なアナライザーを割り当てるためのを作成するだけで済みます。

lucene - lucenene を使用した多言語フィールドの索引付け

1 に答える 1

Related

Reference