特定の機能に基づいて家を分類しようとしているとします。
- 総面積
- 室数
- ガレージエリア
しかし、すべての家にガレージがあるわけではありません。しかし、そうすると、その総面積が非常に特徴的な特徴になります。この機能に含まれる情報を活用するための適切なアプローチは何ですか?
特定の機能に基づいて家を分類しようとしているとします。
しかし、すべての家にガレージがあるわけではありません。しかし、そうすると、その総面積が非常に特徴的な特徴になります。この機能に含まれる情報を活用するための適切なアプローチは何ですか?
車庫があるかどうかを示す 0/1 ダミー変数と、車庫面積とダミーの外積を組み込むことができます (車庫のない家の場合、面積をゼロに設定します)。
最善のアプローチは、すべての機能を備えたデータセットを構築することです。ほとんどの場合、利用できない列をゼロで埋めても問題ありません。
あなたの例を使用すると、次のようになります。
Total area Number of rooms Garage area
100 2 0
300 2 5
125 1 1.5
多くの場合、選択した学習アルゴリズムは、これらのゼロを使用してそのエントリを適切に分類するのに十分強力です。結局のところ、値が存在しない場合でも、それはアルゴリズムの情報です。これは、データが歪んでいる場合に問題になる可能性がありますが、その場合はとにかく歪曲に対処する必要があります.
編集:
小さなガレージと混同される可能性があるという事実を考えると、ゼロを使用することを恐れているというコメントで別の答えがあったことに気づきました. まだ問題は見られませんが (小さなガレージとゼロの間には十分な違いがあるはずです)、存在しないエリアのガレージを負の数 (-1 としましょう) でマークする同じ構造を引き続き使用できます。
他の回答に示されている解決策も完全に妥当であり、家にガレージがあるかどうかを示す追加機能があれば、うまく機能します (特に決定木ベースのアルゴリズム)。データの次元をできるだけ低く保つことを好みますが、最終的には、これは技術的な決定ではなく好みです。
ゼロ インジケーター機能を組み込むことをお勧めします。つまり、ガレージ サイズが 0 の場合は 1、それ以外の場合は 0 の機能です。
特徴ベクトルは次のようになります。部屋数 | ガレージサイズ | ガレージ_存在
機械学習アルゴリズムは、ガレージ サイズのこの (非線形の) 特徴を確認できるようになります。