テキスト内の事前定義されたタグを識別しようとしています。
タグの可能性 * 手術
- 手
- 婦人科
- 眼科
- 手の外科
- 節足動物媒介性ウイルス熱およびウイルス性出血熱
等
私が今行っているのは、テキストから用語ベクトルを取得し、タグ インデックスに対して個別に実行することです。次の問題があります
ワイルドカードを使用したキーワード クエリを使用すると、無関係なヒットが大量に発生します。たとえば、テキストに John wasborne with a growth on his .... が含まれており、「節足動物媒介性ウイルス熱およびウイルス性出血熱」に一致します。
フレーズ検索を使用すると、この問題は解消されますが、用語に個々の単語しか含まれていないため、「Hand Surgery」というタグは一致しません。
これにアプローチするより良い方法があるかどうか疑問に思っています。最初に、インデックス付きのテキストに対して使用可能なすべてのタグをループしました。これはうまく機能しますが、かなりパフォーマンスが集中します。