機能エンジニアリングで Kaggle の fill null メソッドを調べました。一部のプレーヤーは、NA を別のオブジェクト値で埋めます。
たとえば、性別列には「男性」、「女性」、および NA の値があります。メソッドは、NA を「Middle」などの別のオブジェクト値で埋めることです。その後、 null なしで sex 属性を扱い、pandas は null を検出しません。
この方法が機械学習モデルのパフォーマンスまたは優れた機能エンジニアリングに本当に良い影響を与えることを知りたいですか? それ以外に、データセットで知識のある発見がなかった後に NA を埋める良い方法はありますか?