私は質問応答システムを構築していますが、プロセスを高速化するために、IR システムがその質問に対する回答を保持している可能性が高いコーパスから一連のドキュメントを返すようにしたいと考えています (そして、私の NLP アルゴリズムは、それらの全文)。
私は Python を使用しているので、Whoosh は良い選択のように思えましたが、純粋なブールクエリ以外の方法で検索するのは困難であり、質問への回答には向いていません。文字列クエリと TF-IDF の類似性が高いドキュメントのリストのようなものが欲しいです。
入力したいのは:
「アメリカ合衆国の大統領は誰?」
最も類似したドキュメントを取得しますが、代わりにストップワードを取り除いて次のようにします。
「大統領 OR ユナイテッド OR 州」
正確さは QA プロセスには向いていません。ブール値以外の方法で上位のドキュメントを取得するためのメソッドまたは高度な API メソッドを教えてもらえますか? 他のライブラリも試してみたいと思っていますが、ほとんどのライブラリは Python とすばやくやり取りするには複雑に思えます。自然言語コンポーネントに集中できるように、非常に簡単なものが欲しいと思っていました。