さまざまな言語のテキストを取得するアプリケーションがあります。私たちの目的は、テキストの言語を理解し、言語ごとに異なるステマーを使用してそれを分析し、インデックスを付けることです。Solrの言語検出メカニズムを使用して言語を検出できます。
ここで、言語ごとに異なるfieldTypeを使用してその場でテキストを分析し、各テキストを異なるフィールドに格納します。
たとえば、に次のフィールドがあるとしschema.xml
ます。
<!-- English -->
<field name="text_en" type="text_en" indexed="true" stored="true"/>
<!-- German -->
<field name="text_de" type="text_de" indexed="true" stored="true"/>
<!-- Turkish -->
<field name="text_tr" type="text_tr" indexed="true" stored="true"/>
テキストが英語であることがわかったら、それをtext_en
フィールドに動的に追加します。このフィールドは、他のテキストとは異なる手法を使用して分析/ステム処理されます。
これをサポートする組み込みのメカニズムがSolrにありますか?はいの場合、どうすれば設定できますか?または、この目的のためにプラグインを開発する必要がありますか?