クエリを概念にマッピングできる内部検索エンジン(数千のXMLファイルの非常に大きなコレクションがあります)を構築したいと思います。たとえば、「大きな猫」を検索した場合、ランクの高い結果で「大きな猫」のドキュメントも返されるようにします。しかし、関連性スコアははるかに低いものの、「巨大な動物」を返すようにすることにも興味があるかもしれません。
私は現在Pythonの本で自然言語処理を読んでおり、WordNetには役立つと思われる単語マッピングがいくつかあるようですが、それを検索エンジンに統合する方法はわかりません。Luceneを使用してこれを行うことはできますか?どのように?
さらなる研究から、「潜在意味解析」は私が探しているものに関連しているようですが、それをどのように実装するかはわかりません。
これを行う方法について何かアドバイスはありますか?