machine-learning - ユークルーディアン距離と相関を計算するための値の設定方法

Question

ここに私の単語ベクトルがあります:

google
test
stackoverflow
yahoo

これらの単語に次のように値を割り当てました。

google : 1
test : 2
stackoverflow : 3
yahoo : 4

いくつかのサンプルユーザーとその言葉を次に示します。

user1   google, test , stackoverflow
user2   test , google
user3   test , yahoo
user4   stackoverflow , yahoo
user5   stackoverflow , google
user6

単語ベクトルに値が含まれていないユーザーに対応するために、「0」を割り当てます

これに基づいて、これは次のように対応します。

user1   1, 2 , 3
user2   2 , 1 , 0
user3   2 , 4 , 0
user4   3 , 4 , 0
user5   3 , 1,  0
user6   0 , 0 , 0

これらが正しい値であるかどうか、または各単語ベクトル値に値を適用するための正しいアプローチであるかどうかは不明であるため、「ユークルーディアン距離」と「相関」を適用できます。これは、本「Programming Collective Intelligence」のスニペットに基づいています。

「好みの収集最初に必要なのは、さまざまな人々とその好みを表す方法です。ショッピングサイトを構築している場合、値 1 を使用して誰かが過去にアイテムを購入したことを示し、値 0 を使用する場合があります。そうではなかったことを示すために。」

私のデータセットには優先値がないため、ユーザーが単語ベクトルに単語を含むかどうかを表すために一意の数値を使用しています。

これらは単語ベクトルに設定する正しい値ですか? これらの値がどうあるべきかをどのように判断すればよいですか?

1 に答える 1