私はデータ マイニングの分野に比較的慣れていないので、Weka を使って実験しています。
私は、顧客と顧客が購入したアイテムに関連するほぼ 8000 のレコードで構成されるデータセットを持っています。このデータ セットの 58% には、「性別」属性の値がありません。
私が持っている他のデータに基づいて、欠落している性別の値を見つけたいです。
私は最初、トレーニング セットを使用してモデルを構築する Weka の分類アルゴリズムを使用して、これを行うことができると考えました。オンラインで見た例に基づいて、欠損値のないデータの 60 ~ 80% で構成されるトレーニング セットを使用して、Weka で利用可能なほぼすべてのアルゴリズムでこれを試しました。これにより、希望よりも低い精度率が得られました (使用するアルゴリズムに応じて 80 ~ 86%)。
私はこれを正しく行いましたか?この精度を向上させる方法はありますか?さまざまな属性、データのさまざまな前処理などを使用して実験しました。
また、完全なデータセットで ReplaceMissingValues フィルターを使用して、欠損値がどのように処理されるかを確認してみました。ただし、すべての欠損値を「女性」に変更しただけで、明らかにそうではありません。そのため、自分の状況でこのフィルターを使用する必要があるかどうかも疑問に思っています。