エンティティ用語の有限辞書が与えられた場合、Lucene を使用してインテリジェントなタグ付けでエンティティ抽出を行う方法を探しています。現在、私は Lucene を次の目的で使用できます:
- あいまいさのある複雑なフレーズの検索
- 結果の強調表示
ただし、次の方法はわかりません:
-一致したフレーズの正確なオフセットを取得する -一致
ごとにエンティティ固有の注釈を付ける (単にすべてのヒットのタグ)
私は Explain() メソッドを使用してみましたが、これはヒットしたクエリの用語のみを提供し、元のテキスト内のヒットのオフセットは提供しません。
誰かが同様の問題に直面していて、潜在的な解決策を喜んで共有していますか?
助けてくれてありがとう!