2

さまざまな言語のテキストを取得するアプリケーションがあります。私たちの目的は、テキストの言語を理解し、言語ごとに異なるステマーを使用してそれを分析し、インデックスを付けることです。Solrの言語検出メカニズムを使用して言語を検出できます。

ここで、言語ごとに異なるfieldTypeを使用してその場でテキストを分析し、各テキストを異なるフィールドに格納します。

たとえば、に次のフィールドがあるとしschema.xmlます。

<!-- English -->
<field name="text_en" type="text_en" indexed="true" stored="true"/>

<!-- German -->
<field name="text_de" type="text_de" indexed="true" stored="true"/>

<!-- Turkish -->
<field name="text_tr" type="text_tr" indexed="true" stored="true"/>

テキストが英語であることがわかったら、それをtext_enフィールドに動的に追加します。このフィールドは、他のテキストとは異なる手法を使用して分析/ステム処理されます。

これをサポートする組み込みのメカニズムがSolrにありますか?はいの場合、どうすれば設定できますか?または、この目的のためにプラグインを開発する必要がありますか?

4

1 に答える 1

2

言語検出パラメータを見てください 。私にとっては、最初にデフォルトを使用するか、マッピングをオーバーライドして、言語をフィールドにマップする必要があります。フィールドには、言語文字コード(en、de、...など)があります。 。)はフィールド名の一部です。

これを見てください:

http://alisalimi25.blogspot.de/2012/07/phonetic-search-and-language-detection.html

...フィールドに入力するように見える例を追加します:title_na、title_da、..。

申し訳ありませんが、100%確信はありませんが、これが方法です。ドキュメントを解釈します。

于 2012-12-21T14:05:17.487 に答える