algorithm - NLP - 全文検索でセマンティックワイルドカードを使用するクエリ、おそらく Lucene を使用しますか?

Question

大きなコーパス (英語や任意の言語など) があり、それに対してセマンティック検索を実行したいとします。たとえば、次のクエリがあります。

「気をつけて: [sg] の [art] 艦隊が [do sg] にやってくるぞ!」

そして、コーパスには次の文が含まれています。

「気をつけてください: エイリアン船の艦隊が私たちの惑星を破壊しようとしています!」

私のクエリ文字列には、次のような「セマンティックプレースホルダー」が含まれていることがわかります。

これらのクエリを効率的に処理できるライブラリを開発したいと考えています。テキストの解析にはある種の POS タグが必要になると思いますが、既存の全文検索エンジンを完全に再実装して機能させたくないため、これをどのように統合できるかを検討しています。 Lucene のような検索エンジンへの動作は?

場合によっては同様に動作する可能性のある SpanQueries があることは知っていますが、ご覧のとおり、Lucene は保存されたテキストに対してセマンティックな処理を行いません。

このような動作を実装することは可能ですか? または、独自の検索エンジンを作成する必要がありますか?

score 0 · Accepted Answer

Lucene を使用すると、TokenStream 内の 1 つのアイテムに追加のトークンを追加できますが、複数の単語にまたがるタグを処理する方法がわかりません。

algorithm - NLP - 全文検索でセマンティック ワイルドカードを使用するクエリ、おそらく Lucene を使用しますか?