さまざまな分類アルゴリズムの有効性を比較するプロジェクトを行っていますが、イライラする点で立ち往生しています。データは次の場所にあります: http://archive.ics.uci.edu/ml/datasets/Adult分類の問題は、国勢調査のデータに基づいて年収が 5 万を超えるかどうかです。
2 つのエントリの例は次のとおりです。
45歳、私立、98092、高卒、9歳、既婚、社会人配偶者、営業、夫、白人、男性、0、0、60、アメリカ合衆国、<=50K
50歳、非営利の自営業者、386397歳、学士号、13歳、既婚者、営業職、夫、白人、男性、0歳、0歳、60歳、アメリカ合衆国、<=50K
ユークリッド距離を使用してベクトル間の差を計算することには慣れていますが、連続属性と離散属性を組み合わせて使用する方法がわかりません。意味のある方法で 2 つのベクトルの違いを表す効果的な方法はありますか? 3 番目の属性のような大きな値 (要因に基づいてデータ セットを抽出した人々によって計算された重みであり、同様の重みは同様の属性を持つ必要があります) とその違いが意味を維持できるかについて頭を悩ませています。男性や女性などの個別の特徴から、方法を正しく理解していれば、ユークリッド距離は 1 にすぎません。一部のカテゴリは削除できると確信していますが、分類に大きく影響するものは削除したくありません。私'