2

品詞などのカスタム属性を TokenStream に追加すると、インデックス作成プロセスで使用されますか?

この属性を索引から取得できますか? トークンごとに保存されますか?

4

1 に答える 1

1

ここであなたが探しているものを理解したら、これを達成するために独自のカスタム TokenStream (標準の TokenStream を拡張すると思います) を作成し、このすべての追加情報を保存する方法を決定する必要があると思います。そして、その情報をインデックスから意味のある方法で取得する方法。私は、すぐに使えるようなことを達成する方法を知りません。

私の頭の上では、カスタム トークンストリームを通過するトークンごとに新しいドキュメントを作成する必要があると思います。次に、検索時に蛍光ペンなどを使用して、クエリが一致する用語を取得し、インデックスを再度クエリして、その用語に関するこれらのメタデータ ドキュメントを取得します。これは、このドキュメントまたは書き込まれた別のドキュメントで再利用されるトークンには、同じメタデータが割り当てられていることを前提としています。そうでない場合は、探しているドキュメントが衝突の影響を受けないことを識別する方法を決定する必要があります。

または、同じドキュメントの別のフィールドを記述して、データの構造に対応する各トークンのメタデータの順序付きリストを作成することもできます。両方を保存し、再び蛍光ペンを使用して検索結果を見つけ、トークンストリームが作成したリスト内の一致する位置を解析します。

とにかく、それはいくつかの考えです。

于 2012-10-18T16:26:18.117 に答える