k-means - 固定コンポーネントと連続コンポーネントを使用したスパースベクトルのクラスタリング

Question

次のクラスタリングの問題については、データのエンコードについてアドバイスしてください。車の使用情報を含むデータセットがあります。データセットには次のフィールドがあります。1。車種（トヨタセリカ、BMW、日産エクストレイル、マツダコスモなど）2。製造年3.車が走る国4.大規模な修理前の車の走行距離

重要：上記のデータセットはまばらです。ほとんどの場合、「距離」は特定の車のすべての国で知られているわけではありません。

問題：特定の車について、「距離」が不明な国で大規模な修理が行われる前に実行される「距離」を予測します。

私のアプローチ：データセット内の各レコードを、次のコンポーネントを持つスパースベクトルとして表現したいと思います。1。バイナリ（1/0）車モデルコンポーネント。これらのコンポーネントの数は、データセット内のすべての可能なモデルの数と同じです。2.車が走るバイナリ（1/0）国。これらのコンポーネントの数は、データセット内のすべての可能な国の数と同じです。3.距離。単一の整数成分は、車が走る距離に等しくなります。

次に、これらのベクトルをクラスター化（k-means）して、結果のグループを分析します。

質問：1）私のベクトルでは、異なる性質のコンポーネントを混合します-バイナリ（モデル、国）と連続（距離）。ベクトル間のコンポーネントごとの距離を計算する方法は？コサイン類似性？2）有限の値のセット（モデル、国）でコンポーネントをエンコードして、連続コンポーネント（距離など）でうまく機能する他の方法はありますか？

ありがとう！アントン

k-means - 固定コンポーネントと連続コンポーネントを使用したスパースベクトルのクラスタリング

1 に答える 1

Related

Reference