ここに私の単語ベクトルがあります:
google
test
stackoverflow
yahoo
これらの単語に次のように値を割り当てました。
google : 1
test : 2
stackoverflow : 3
yahoo : 4
いくつかのサンプル ユーザーとその言葉を次に示します。
user1 google, test , stackoverflow
user2 test , google
user3 test , yahoo
user4 stackoverflow , yahoo
user5 stackoverflow , google
user6
単語ベクトルに値が含まれていないユーザーに対応するために、「0」を割り当てます
これに基づいて、これは次のように対応します。
user1 1, 2 , 3
user2 2 , 1 , 0
user3 2 , 4 , 0
user4 3 , 4 , 0
user5 3 , 1, 0
user6 0 , 0 , 0
これらが正しい値であるかどうか、または各単語ベクトル値に値を適用するための正しいアプローチであるかどうかは不明であるため、「ユークルーディアン距離」と「相関」を適用できます。これは、本「Programming Collective Intelligence」のスニペットに基づいています。
「好みの収集 最初に必要なのは、さまざまな人々とその好みを表す方法です。ショッピング サイトを構築している場合、値 1 を使用して誰かが過去にアイテムを購入したことを示し、値 0 を使用する場合があります。そうではなかったことを示すために。」
私のデータセットには優先値がないため、ユーザーが単語ベクトルに単語を含むかどうかを表すために一意の数値を使用しています。
これらは単語ベクトルに設定する正しい値ですか? これらの値がどうあるべきかをどのように判断すればよいですか?