類似性の計算にTF/IDFを使用しています。たとえば、次の2つのドキュメントがあるとします。
Doc A => cat dog
Doc B => dog sparrow
通常、類似度は50%ですが、TF/IDFを計算すると。以下の通りです
DocAのTf値
dog tf = 0.5
cat tf = 0.5
DocBのTf値
dog tf = 0.5
sparrow tf = 0.5
DocAのIDF値
dog idf = -0.4055
cat idf = 0
DocBのIDF値
dog idf = -0.4055 ( without +1 formula 0.6931)
sparrow idf = 0
DocAのTF/IDF値
0.5x-0.4055 + 0.5x0 = -0.20275
DocBのTF/IDF値
0.5x-0.4055 + 0.5x0 = -0.20275
これで、-0.20275の類似性があるように見えます。それは...ですか?それとも私は何かが足りないのですか?それとも次のステップはありますか?私も計算できるように教えてください。
ウィキペディアが言及したtf/idf式を使用しました