私は、観察の次元を減らし、それでもそれらの重要な表現を保持する必要があるプロジェクトに取り組んでいます。オートエンコーダーの使用は多くの理由で強く提案されましたが、それが最善のアプローチであるかどうかはよくわかりません。
次元が 60,000 の 1400 個のサンプルがあり、これは高すぎます。元の次元の 10% に次元を削減しようとしています。私はtheano autoencoders [ Link ]を使用していますが、コストは約30,000のままです(これは非常に高いです)。エポック数を増やしたり、学習率を下げたりしてみましたが、うまくいきませんでした。私はオートエンコーダーの専門家ではないので、ここから先に進む方法や、いつ試行をやめるべきかわかりません。
私が実行できるテストは他にもありますが、先に進む前に、あなたからの意見が欲しいです。
データセットが小さすぎると思いますか (さらに 600 サンプルを追加して、合計で ~2000 にすることができます)?
積み重ねられた自動エノダーを使用すると役立つと思いますか?
パラメータ (エポックと学習率) を微調整し続ける必要がありますか?
データセットは画像のアンサンブルであるため、オートエンコーダーからの再構成を視覚化しようとしましたが、すべてのサンプルで同じ出力しか得られませんでした。これは、入力が与えられると、オートエンコーダーが入力を再構築しようとするが、代わりに得られるのは、どの入力に対しても同じ (ほぼ正確に) 画像であることを意味します (これは、データセット内のすべての画像の平均のように見えます)。これは、オートエンコーダーがそこから画像を再構築できないため、内部表現が十分でないことを意味します。
データセット:スキャンされた書籍 (表紙を含む) の 1400 ~ 2000 枚の画像 (それぞれ約 60.000 ピクセル) (これは 60.000 要素の特徴ベクトルに変換されます)。各特徴ベクトルは [0,1] で正規化されており、元の値は [0,255] でした。
問題: オートエンコーダーで次元を減らす (可能であれば)
追加情報が必要な場合、または問題をよりよく理解するのに役立つ可能性のある情報を見逃した場合は、コメントを追加してください。喜んでお手伝いさせていただきます =)。
注: 現在、データセット全体でより多くのエポックを使用してテストを実行しています。結果に応じて投稿を更新しますが、しばらく時間がかかる場合があります。