1

データの「ノイズ」を正しくキャッチしたとどのように主張できるのでしょうか。

より具体的には、主成分分析を例にとると、PCAでは、SVDを実行した後、小さな特異値をゼロにし、低ランク近似を使用して元の行列を再構築できることがわかっています。

次に、無視されたのは実際にデータのノイズであると主張できますか?これに対する評価指標はありますか?

私が思いつくことができる唯一の方法は、再構築されたデータから元のデータを単純に差し引くことです。

次に、ガウス分布をその上に合わせて、フィットネスが良好かどうかを確認します。

それはDSPのような分野での従来の方法ですか?

ところで、典型的な機械学習タスクでは、測定はフォローアップ分類パフォーマンスになると思いますが、私は純粋に生成モデルを実行しているため、ラベルは付けられていません。

4

3 に答える 3

4

私の見方では、ノイズの定義は問題の領域によって異なります。したがって、それを削減するための戦略はドメインごとに異なります。

たとえば、地震地層の分類や顔分類の問題でノイズの多い画像などの問題でノイズの多い信号を持つことは、医療診断の問題で不適切にタグ付けされたデータによって生成されるノイズとは大幅に異なります。ドキュメントの言語分類問題。

ノイズが特定の (または一連の) データ ポイントによるものである場合、解決策はそれらのデータ ポイントを無視するのと同じくらい簡単です (ただし、ほとんどの場合、これらのデータ ポイントを特定することは困難な部分です)。

あなたの例から、ノイズがフィーチャに埋め込まれている場合(地震の例のように)についてもっと心配していると思います。メディアン フィルター ( http://en.wikipedia.org/wiki/Median_filter )のようなノイズ削減フィルターを使用してデータを前処理する傾向がある場合があります。対照的に、一部の人々はノイズを減らすためにデータの次元を減らす傾向があり、このシナリオでは PCA が使用されます。

両方の戦略は有効であり、通常、人々は両方を試して相互検証し、どちらがより良い結果をもたらしたかを確認します。

あなたがしたことは、ガウスノイズをチェックするための良い指標です。ただし、非ガウス ノイズの場合、メトリクスによって偽陰性が得られる可能性があります (適合度は低いが、ノイズ リダクションは良好です)。

于 2013-03-15T14:18:42.397 に答える
1

個人的には、ノイズリダクションの有効性を証明したい場合は、タスクベースの評価を使用します. 問題を解決するために、何らかの目的でこれを行っていると思いますか?もしそうなら、元のノイズのある行列と新しいきれいな行列でタスクを解決してください。後者の方がうまく機能する場合、関心のあるタスクの目的で破棄されたのはノイズでした。ノイズの客観的な尺度を定義するのはかなり難しいと思います。

于 2013-03-15T11:47:42.307 に答える