テキストの類似性を評価するために、アルゴリズムを実装する (またはオープン ソース ライブラリで見つける) 必要があります。与えられた 2 つの任意のドキュメント セット (比較的少数の大きなテキスト チャンク) に対して、それらの間で一致するペアを作成するための効率的なアルゴリズムが必要です。
これを 2 つに分割し、すべてのペアの類似度係数を定義してから、いくつかの割り当て問題アルゴリズムを適用すると思います。割り当てアルゴリズムについては、かなりの数のソリューションを見つけることができますが、類似度係数を計算するための適切なソリューションを見つけることができません。
ドキュメントが事前にわかっていないことに注意してください。テキストのインデックスの計算 (存在する場合) も同様に高速でなければなりません。
ハミング距離、レーベンシュタイン距離、文字列の違いに関する他のアルゴリズムのいくつかを認識しています。ただし、これは私が探しているものではありません-意図的に文字列の代わりにテキストという単語を使用しています。
私は、フレーズ検索アルゴリズムや、Lucene や Xapian などのライブラリが何のために作られているか (少なくともそのように思われる) を探しているわけではありません。
おそらく tf–idf に基づいたものです。
問題は、この問題をすでに解決しているものがあるのか、それとも lucete のようなライブラリを使用して解決できるのかということだと思います。