1 つのテキストに対して多くのクエリがあります。例 "North America"、"Europe"、"Asia" (クエリ) と 1 つのテキスト (例: 米国に関する大きなテキスト (例: Wikipedia の記事))。
ここで、大きなテキストのインデックスを作成し、その後、上記のクエリを送信します。Lucene (バージョン 4) がスコアを計算するようになりました。しかし、さまざまな検索でわかっているように、これは実際のパーセンテージではなく、クエリとテキストの間の実際の類似性でもありません。TFIDFSimilarity を使用すると、非常に小さなスコアしか得られません (<0.05)
しかし、私は次の類似性を得たいと思っています: "北アメリカ" ==> 90% "ヨーロッパ", "アジア" ==> 40%
..または何か他のものですが、それは実際の類似点である必要があります。
私に何ができる?誰かアイデアはありますか?