R プラットフォームで randomForest パッケージを使用してバイナリ分類器を構築しています。約 30,000 行あり、14,000 行が陽性クラス、16,000 行が陰性クラスです。分類に重要であることが知られている 15 の変数があります。
情報が欠落している追加の変数 (約 5) があります。これらの変数の値は 1 または 0 です。1 は何かが存在することを意味しますが、0 は存在するか存在しないかがわからないことを意味します。これらの変数は、1 の場合は分類にとって最も重要な変数 (分類の信頼性が向上し、サンプルが陽性クラスにある可能性が高くなります) になり、0 の場合は役に立たないことが広く知られています。行の値は 1 です。したがって、1 つの変数が役立つケースは 5% にすぎません。5 つの変数は互いに独立しているため、私が持っているデータの 15 ~ 25% でこれらが非常に役立つと期待しています。
利用可能なデータを利用する方法はありますが、単一の列に存在する欠落/不明なデータを無視する方法はありますか? あなたのアイデアや提案をいただければ幸いです。実装は、ランダム フォレストと R プラットフォームに固有である必要はありません。これが他の機械学習技術または他のプラットフォームを使用して可能であれば、それらも大歓迎です。お時間をいただきありがとうございます。よろしく