0

このKeras conv_filter_visualizationの例は、VGG-16 ネットワークのレイヤー 5 の視覚化された重みの 8x8 グリッドを出力します。コードは 512 個のフィルターのうち 128 個を通過し、最大の損失を与えるフィルターの重みを視覚化します。出力例はこちら

グリッドの各セルのサイズが 128x128 ピクセルなのはなぜですか?

VGG のレイヤ 5 には、3 つの 512x3x3 フィルタがあります。

ブロック 5

x = Convolution2D(512, 3, 3, activation='relu', border_mode='same', name='block5_conv1')(x)
x = Convolution2D(512, 3, 3, activation='relu', border_mode='same', name='block5_conv2')(x)
x = Convolution2D(512, 3, 3, activation='relu', border_mode='same', name='block5_conv3')(x)
x = MaxPooling2D((2, 2), strides=(2, 2), name='block5_pool')(x)`

これらが 128x128 ピクセルのセルとして視覚化される方法について混乱しています。

4

1 に答える 1

0

ネットワークへの入力は 128x128 グレースケール イメージであるため、視覚化の各セルは、テスト イメージをフィルターの 1 つと畳み込みした結果です。最も識別力の高い 64 個のフィルターが表示されます。

于 2016-12-12T15:55:24.630 に答える