私は、ニューラルネットワークをトレーニングするために生物学的データを前処理しようとしています。さまざまな正規化方法の広範な検索と繰り返しの提示にもかかわらず、どの方法をいつ使用するかについては賢明ではありません。特に、正に偏った入力変数がいくつかあり、最も適切な正規化方法があるかどうかを確認しようとしています。
また、これらの入力の性質がネットワークのパフォーマンスに影響を与えるかどうかについても心配し、データ変換(特にログ変換)を実験しました。ただし、一部の入力には多くのゼロがありますが、10進数の値が小さい場合もあり、log(x + 1)(または1から0.0000001までの任意の数値)の影響を大きく受け、結果の分布が正常に近づかないように見えます(どちらかが残ります)。歪んでいるか、最小値で鋭いピークを持つバイモーダルになります)。
これはニューラルネットワークに関連していますか?すなわち。偏ったデータを説明するために特定の機能変換/正規化方法を使用する必要がありますか、それともそれを無視して正規化方法を選択して先に進む必要がありますか?
この件に関するアドバイスをいただければ幸いです。
ありがとう!