データベースにレコード (行) があり、類似のレコードを識別したいと考えています。コサイン類似度を使用するという制約があります。変数 (属性、列) の型が異なり、次の形式である場合:
[number] [number] [boolean] [20 words string]
コサイン類似度を適用するためにベクトル化に進むにはどうすればよいですか? 文字列には、単純な tf-idf を使用できます。しかし、数値とブール値の場合は?. そして、これをどのように組み合わせることができますか?私の考えでは、ベクトルの長さは 1+1+1+20 になります。しかし、レコードの数値をベクトルの係数に変換し、それらを文字列の tf-idf と連結してコサイン類似度を計算することは、意味的に「効率的」ですか? または、数字を単語として扱い、tf-idf を数字にも適用できます。別のテクニックはありますか?