Luceneで、さまざまな言語のRDFリテラルを持つ可能性のあるフィールドにインデックスを付けようとしています。私がこれまでに見たアプローチのほとんどは次のとおりです。
単一のインデックスを使用します。各ドキュメントには、使用する言語ごとにフィールドがあります。または
Mインデックスを使用します。Mはコーパス内の言語の数です。
Lucene 2.9+には、用語に属性を付加できるペイロードと呼ばれる機能があります。言語(またはデータ型などの他の属性)情報を格納するためにこのメカニズムを使用している人はいますか?他の2つのアプローチと比較して、パフォーマンスはどうですか?それがどのように行われるかを示すソースコードへのポインタがあれば役立ちます。ありがとう。