MS Word ドキュメントの大規模なコーパスに対するユーザーの選択にタグを付けるためのアプリケーションがあります。これらの選択には、1 つまたは複数のキーワード タグと、通常はタイトル タグを付けます。選択したテキストが即座に分析され、タガーに最も可能性の高いキーワードとタイトル タグのリストが表示される機能を追加したいと考えています (既存のタグ付きテキストの選択に基づく)。
SOLR インデックスを使用しています。選択したテキストをクエリ自体として発行するだけで、同様の選択を返すことができると言われました。ただし、選択したテキストの長さは 200 ~ 6000 語の間である可能性があります。6000 ワードのクエリは、メモリ使用量の問題になる可能性があります。
非常に積極的なストップワードの削除を行って、クエリ内の単語の数を大幅に減らし、非常に意味のある単語だけを残すことができると考えました。私たちは過去 10 年間このコーパスに取り組んできましたが、主題と使用されている語彙に精通しているため、これは簡単に行うことができます。しかし、問題は、通常のユーザーがインデックスを検索できるようにするために同じインデックスも使用していることです。一般的な単語を削除しすぎると、通常のクエリ (特にフレーズ クエリ) が正しく機能しない可能性があります。
また、ドキュメント全体に恣意的に広がるのではなく、より狭い範囲内にクエリのテキストを含む結果を増やしたいと考えています。
もう 1 つの問題は、ネストされた選択が許可されていることです。外側の選択は本質的により一般的で約 5000 語の長さである可能性があり、内側の選択はより短く、より具体的なトピックになります。ただし、両方の選択に同じテキストが含まれているため、SOLR は両方を高くランク付けしますが、外側の選択はあまり関連性がない可能性があります
ここ数日、SOLR クエリ パーサーのドキュメントを調べてきましたが、これは実行可能であるように見えますが、これを機能させるために何をする必要があるのか、まだ正確にはわかりません。どんな提案でも大歓迎です。