次のクラスタリングの問題については、データのエンコードについてアドバイスしてください。車の使用情報を含むデータセットがあります。データセットには次のフィールドがあります。1。車種(トヨタセリカ、BMW、日産エクストレイル、マツダコスモなど)2。製造年3.車が走る国4.大規模な修理前の車の走行距離
重要:上記のデータセットはまばらです。ほとんどの場合、「距離」は特定の車のすべての国で知られているわけではありません。
問題:特定の車について、「距離」が不明な国で大規模な修理が行われる前に実行される「距離」を予測します。
私のアプローチ:データセット内の各レコードを、次のコンポーネントを持つスパースベクトルとして表現したいと思います。1。バイナリ(1/0)車モデルコンポーネント。これらのコンポーネントの数は、データセット内のすべての可能なモデルの数と同じです。2.車が走るバイナリ(1/0)国。これらのコンポーネントの数は、データセット内のすべての可能な国の数と同じです。3.距離。単一の整数成分は、車が走る距離に等しくなります。
次に、これらのベクトルをクラスター化(k-means)して、結果のグループを分析します。
質問:1)私のベクトルでは、異なる性質のコンポーネントを混合します-バイナリ(モデル、国)と連続(距離)。ベクトル間のコンポーネントごとの距離を計算する方法は?コサイン類似性?2)有限の値のセット(モデル、国)でコンポーネントをエンコードして、連続コンポーネント(距離など)でうまく機能する他の方法はありますか?
ありがとう!アントン