2

画像分類にディープ ラーニング カフェ フレームワークを使用しています。
私は顔のあるコインを持っています。それらのいくつかは左向きで、いくつかは右向きです。

それらを分類するために、私は一般的なアプローチを使用しています。すでに多くの画像パターンをキャプチャし、ほとんどの最後のレイヤーをトレーニングして、トレーニングセットに適合する事前トレーニング済みの ImageNet ネットワークから重みと構造を取得します。

しかし、このセットではネットワークが機能しないことがわかりました。たとえば、 leftdirected などのコインをいくつか取り、水平方向に反転した画像を生成し、右側としてマークしました。

右側面

このセットの畳み込みネットの精度は約 50% で、正確にランダムな結果です。

また、2つの画像(「h」文字の2つの反転バージョン)でネットをトレーニングしようとしました。しかし、同じ結果 - 50% . (私が別の文字を選択し、拡張されたデータセットでネットをトレーニングすることを選択した場合、100% の精度が非常に速く得られます)。しかし、反転に対する不変性は私の分類を破りました。

ここに画像の説明を入力 ここに画像の説明を入力

私の質問は次のとおりです。事前トレーニング済みのイメージネットの利点を使用できるアプローチが存在しますが、何らかの形でこの不変性を破っています。そして、ネット上のどの層が不変性を可能にするのか.

この例のアプローチに基づいてネットを生成するために「カフェ」を使用しています。

https://github.com/BVLC/caffe/blob/master/examples/02-fine-tuning.ipynb

4

1 に答える 1

3

イメージ ネットでトレーニングされた Caffe の基本/ベースライン モデルは、ほとんどの場合、非常に単純なイメージ拡張 (イメージを水平方向に反転する) を使用します。つまり、imagenet クラスは、水平方向に反転しても同じです。したがって、微調整しようとしている重みは、水平方向の反転を無視する必要がある設定でトレーニングされており、これを非常によくキャプチャしたネットが表示されていると思います。この特定の変換にはもはや敏感ではありません。
この不変性がネットのどの層で発生しているかを判断するのは簡単ではないため、この動作を克服するためにどの層を微調整する必要があるかを判断するのは簡単ではありません。この不変性はネットワークにとって非常に基本的なものであり、ネットワーク全体の再トレーニングが必要になったとしても驚くことではありません。

于 2016-07-23T18:51:20.950 に答える