1

Imagenet2011 データセットをダウンロードし、こちらの手順に従ってCaffe imagenet ネットワークのトレーニングを試みました。トレーニングには約 50 万枚の画像を使用し、検証には 7 万枚の画像を使用しました。

実験用に ILSVRC 2012 検証セットもダウンロードしました。

結果は次のとおりです。

ILSVRC 2012 公式検証セット: 私のネットワーク: 46% の精度、元の Caffe Imagenet ネットワーク: 56% の精度。

私の検証セット:私のネットワーク: 53% の精度、元の Caffe Imagenet ネットワーク: 80% の精度。

MY トレーニング データ (オーバーフィッティングのチェック):私のネットワーク: 99% の精度、元の Caffe Imagenet ネットワーク: 70% の精度。

トレーニングに関するヘルプとヒントをいくつかお願いしたいと思います。

  1. 新しいネットワークが過剰適合しているように感じます。同意しますか?より多くの画像を使用する必要がありますか? データ拡張を使用して、トレーニング セットのサイズを機械的に増やしますか? それともドロップアウトパラメータを変更しますか?

  2. Krizhevsky らによる論文「深層畳み込みニューラル ネットワークによる Imagenet 分類」。1 著者はトレーニングに 120 万枚の画像を使用し、トレーニング データのサイズを 2048 倍に増加させるデータ拡張2を使用したと書かれています。ただし、データ拡張 (ランダム フリップを除く) は、イメージネットのトレーニング。データ拡張は本当に必要ないのですか?

  3. ImageNet データセットの約 100 クラスにのみ関心があります。合計 100K の画像を持つ 100 クラスのみで imagenet ネットワークを (ゼロから) トレーニングするとします。元の 1.2M 画像よりもはるかに少ないですが、クラスもはるかに少なくなっています。ネットワークはオーバーフィットするでしょうか、それとも 100 のカテゴリで優れたパフォーマンスを発揮するでしょうか? それとも、100 クラスだけに別のネット アーキテクチャを使用する必要がありますか? Imagenet ネットワークをトレーニングしてから、それらの 100 クラスを使用して微調整のみを行う方がよいでしょうか?

  4. 元の 1K カテゴリの場合、(1.2M ではなく) 500K の画像しかありません。より多くの画像を含むカテゴリを使用する必要がありますか? より多くのカテゴリ (および画像) を使用するのはどうですか?

前もって感謝します!

ギル

1 Krizhevsky、Alex、Ilya Sutskever、および Geoffrey E. Hinton。「深い畳み込みニューラル ネットワークによる Imagenet 分類」神経情報処理システムの進歩。2012年。</p>

2「データ拡張の最初の形式は、画像の平行移動と水平方向の反射を生成することです。これを行うには、256x256 の画像からランダムな 224 x 224 パッチ (およびそれらの水平方向の反射) を抽出し、これらの抽出されたパッチでネットワークをトレーニングします4。これにより、サイズが大きくなります。結果として得られるトレーニングの例は、もちろん相互依存性が高いですが、2048 倍の係数で設定されたトレーニング セットです。」

4

0 に答える 0