画像分類にディープ ラーニング カフェ フレームワークを使用しています。
私は顔のあるコインを持っています。それらのいくつかは左向きで、いくつかは右向きです。
それらを分類するために、私は一般的なアプローチを使用しています。すでに多くの画像パターンをキャプチャし、ほとんどの最後のレイヤーをトレーニングして、トレーニングセットに適合する事前トレーニング済みの ImageNet ネットワークから重みと構造を取得します。
しかし、このセットではネットワークが機能しないことがわかりました。たとえば、 leftdirected などのコインをいくつか取り、水平方向に反転した画像を生成し、右側としてマークしました。
このセットの畳み込みネットの精度は約 50% で、正確にランダムな結果です。
また、2つの画像(「h」文字の2つの反転バージョン)でネットをトレーニングしようとしました。しかし、同じ結果 - 50% . (私が別の文字を選択し、拡張されたデータセットでネットをトレーニングすることを選択した場合、100% の精度が非常に速く得られます)。しかし、反転に対する不変性は私の分類を破りました。
私の質問は次のとおりです。事前トレーニング済みのイメージネットの利点を使用できるアプローチが存在しますが、何らかの形でこの不変性を破っています。そして、ネット上のどの層が不変性を可能にするのか.
この例のアプローチに基づいてネットを生成するために「カフェ」を使用しています。
https://github.com/BVLC/caffe/blob/master/examples/02-fine-tuning.ipynb