私は配列、S & T、含む単語 (小文字、トリミング、分音符号なし) を作成する必要があります。単語数は異なる場合があります。(ほとんどのデータは一種の固有名詞で、かなり短い (<5))
これらの配列の類似性のレベルを計算できる、優れたメトリック (およびその実装、またはおそらく研究論文) を見つける必要があります。
私がこれまでに持っているいくつかのアイデア:
- 両方の配列に存在するすべての単語をスコアリングする
- 両方の配列の同じ場所にあるすべての単語をスコアリングする
- 最長共通シーケンスのスコア付け
- 上記のすべて + インデックスの相対位置を考慮 (最初の方が重要)
- 文字の代わりに単語を使用するある種のレーベンシュタイン (挿入/削除カウント)
他のアイデアはありますか?