これは実際には stats.stackexchange.com により適した質問かもしれませんが、これが WEKA 固有の質問であることは認めています。さて、欠損値の問題をうまく処理するモデルが WEKA にあるかもしれません。WEKAについてはわかりませんが、これを適切に処理する決定木の実装があるかもしれません。
ただし、特徴値の欠落は難しい問題であるため、最初にいくつかの基本的な考慮事項を作成することをお勧めします。いずれにせよ、これらの考慮事項は WEKA の自動機能によって行われる必要があるため、ドメインの知識を使用して事前にそれらを行うことをお勧めします..
「該当なし」は、機能が欠落している理由の 1 つです。したがって、データセットによっては、「欠落」と「該当なし」の区別がある場合とない場合があります。値を「欠落している」と呼ぶ場合、単に値がないと言っているだけです。なぜ見つからないのですか?
機能の欠落には多くの潜在的な原因があり、他のものよりも有害なものもあります。この状況では、主に 3 つのオプションがあります。
- 欠損値を持つすべてのレコードを削除する
- 値が欠落している機能を削除します
- 欠落している値を、値がどうあるべきかについての「推測」に置き換えます。これを代入と呼びます。
最も保守的で安全な選択は、明らかに機能を削除することです。これを行う際に、追加のインジケーター機能を作成すると便利です。これは、元の機能が欠落しているかどうかを簡単に示すことができます。この情報は、適切なモデルを適合させるのに役立つ場合があります。
これら 3 つのアプローチのどれを採用するかを選択する際には、考慮すべき点がいくつかあります。
- 99999 は、0 と同じメカニズムではなく、明示的な NA 決定から生成されることを確実に知っていますか? 単に「欠落」していると説明しているだけなので、ゼロはどのようなメカニズムで生成されますか?
- 欠損値を示すこれらの特徴値はどのくらい一般的ですか? 欠落している特徴値が多いほど、ケースの削除または特徴の代入のリスクが高くなります。
- 代入に価値があると考える場合、ドメイン知識は適切な値を選択するのに役立ちますか? たとえば、値がある値 (たとえば、高血圧) から逸脱した場合にのみ値が入力され、予想されるレベルにある場合は空白のままである場合、欠落しているケースにこの値を代入することは合理的です。