0

Pythonで質問応答のプロジェクトを行っています。tfidf の値とともに、質問と回答のドキュメントのベクトルを既に持っています。しかし、Pythonで類似性マッチングを計算する方法がわかりません。

4

3 に答える 3

1

コサイン類似性

length_question = .0
length_answer = .0

for word_tfidf in question:
    length_question += word_tfidf**2

for word_tfdif in answer:
     length_answer += word_tfidf**2

similarity = .0
for word in question:
    question_word_tfidf = question[word]
    answer_word_tfidf = answer.get(word, 0)
    similarity += question_word_tfidf * answer_word_tfidf
similarity /= math.sqrt(length_question * length_answer)
于 2012-05-19T22:29:46.190 に答える
1

レーベンシュタイン距離を使用できます。コードについてはhttp://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance#Pythonを、コードについてはhttp://en.wikipedia.org/wiki/Levenshtein_distanceを参照してください。アルゴリズムの議論。

上記のリンクからコピーしたスニペットは次のとおりです。

def levenshtein(s1, s2):
    if len(s1) < len(s2):
        return levenshtein(s2, s1)
    if not s1:
        return len(s2)

    previous_row = xrange(len(s2) + 1)
    for i, c1 in enumerate(s1):
        current_row = [i + 1]
        for j, c2 in enumerate(s2):
            insertions = previous_row[j + 1] + 1 # j+1 instead of j since previous_row and current_row are one character longer
            deletions = current_row[j] + 1       # than s2
            substitutions = previous_row[j] + (c1 != c2)
            current_row.append(min(insertions, deletions, substitutions))
        previous_row = current_row

    return previous_row[-1]
于 2012-05-19T23:04:37.283 に答える
1

2 つのベクトル間のユークリッド距離、別の距離メトリック (ハミング距離など)、またはベクトルの相互相関を使用できます。

于 2012-05-19T22:19:04.750 に答える