solr - Solrを使用した多言語分析とステミング

Question

さまざまな言語のテキストを取得するアプリケーションがあります。私たちの目的は、テキストの言語を理解し、言語ごとに異なるステマーを使用してそれを分析し、インデックスを付けることです。Solrの言語検出メカニズムを使用して言語を検出できます。

ここで、言語ごとに異なるfieldTypeを使用してその場でテキストを分析し、各テキストを異なるフィールドに格納します。

たとえば、に次のフィールドがあるとしschema.xmlます。

<!-- English -->
<field name="text_en" type="text_en" indexed="true" stored="true"/>

<!-- German -->
<field name="text_de" type="text_de" indexed="true" stored="true"/>

<!-- Turkish -->
<field name="text_tr" type="text_tr" indexed="true" stored="true"/>

テキストが英語であることがわかったら、それをtext_enフィールドに動的に追加します。このフィールドは、他のテキストとは異なる手法を使用して分析/ステム処理されます。

これをサポートする組み込みのメカニズムがSolrにありますか？はいの場合、どうすれば設定できますか？または、この目的のためにプラグインを開発する必要がありますか？

score 2 · Accepted Answer

言語検出パラメータを見てください。私にとっては、最初にデフォルトを使用するか、マッピングをオーバーライドして、言語をフィールドにマップする必要があります。フィールドには、言語文字コード（en、de、...など）があります。。）はフィールド名の一部です。

これを見てください：

http://alisalimi25.blogspot.de/2012/07/phonetic-search-and-language-detection.html

...フィールドに入力するように見える例を追加します：title_na、title_da、..。

申し訳ありませんが、100％確信はありませんが、これが方法です。ドキュメントを解釈します。

solr - Solrを使用した多言語分析とステミング

1 に答える 1

Related

Reference