0

次のリポジトリでマスク RCNN のトレーニングを再現しようとしています: https://github.com/maxkferg/metal-defect-detection

列車のコード スニペットは次のとおりです。

        # Training - Stage 1
        print("Training network heads")
        model.train(dataset_train, dataset_val,
        learning_rate=config.LEARNING_RATE,
        epochs=40,
        layers='heads')

        # Training - Stage 2
        # Finetune layers from ResNet stage 4 and up
        print("Fine tune Resnet stage 4 and up")
        model.train(dataset_train, dataset_val,
        learning_rate=config.LEARNING_RATE,
        epochs=120,
        layers='4+')

        # # Training - Stage 3
        # # Fine tune all layers
        print("Fine tune all layers")
        model.train(dataset_train, dataset_val,
        learning_rate=config.LEARNING_RATE / 10,
        epochs=160,
        layers='all')

Stage-1はスムーズに進みます。しかしStage-2から失敗。以下を与える:

2020-08-17 15:53:10.685456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] 合計サイズ 2048 の 123 チャンク246.0KiB 2020-08-17 15:53:10.685456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] 1 チャンクのサイズ2816 合計 2.8KiB 2020-08-17 15:53:10.686456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] 6 チャンクサイズ 3072 の合計 18.0KiB 2020-08-17 15:53:10.686456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680]サイズ 4096 の 387 チャンク、合計 1.51MiB680] 合計 6.0KiB のサイズ 6144 の 1 つのチャンクcc:680] 合計 6.5KiB のサイズ 6656 のチャンク 15:53:10.688456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\ bfc_allocator.cc:680] 合計 480.0KiB のサイズ 8192 の 60 個のチャンクcommon_runtime\bfc_allocator.cc:680] 合計 18.0KiB のサイズ 9216 の 2 つのチャンクcore\common_runtime\bfc_allocator.cc:680] サイズ 12288 の 12 個のチャンク、合計 144.0KiB 2020-08-17 15:53:10.689456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 16384 の 2 つのチャンク合計 32.0KiB 2020-08-17 15:53:10.690456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 21248 の 1 つのチャンク、合計 20.8KiB 2020-08-17 15:53: 10.691456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 24064 のチャンク 1 合計 23.5KiB 2020-08-17 15: 53:10.691456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 24576 の 5 つのチャンク、合計 120.0KiB 2020-08-17 15:53:10.692456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] 1 サイズ 37632 のチャンク合計 36。8KiB 2020-08-17 15:53:10.692456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 40960 の 1 チャンク合計 40.0KiB 2020-08-17 15:53:10.693456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] 4 チャンクサイズ 49152 合計 192.0KiB 2020-08-17 15:53:10.693456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] 6サイズ 65536 のチャンク合計 384.0KiB 2020-08-17 15:53:10.694456: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680 ] 合計 80.0KiB のサイズ 81920 の 1 つのチャンク:680] 合計 88.5KiB のサイズ 90624 の 1 つのチャンクcc:680] 合計 128.0KiB のサイズ 131072 の 1 つのチャンクbfc_allocator.cc:680] 合計 432.0KiB のサイズ 147456 の 3 つのチャンクcommon_runtime\bfc_allocator.cc:680] 合計 3.00MiB のサイズ 262144 の 12 個のチャンクcore\common_runtime\bfc_allocator.cc:680] サイズ 327680 の 1 つのチャンク合計 320.0KiB 2020-08-17 15:53:10.697457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 524288 の 11 個のチャンク合計 5.50MiB 2020-08-17 15:53:10.697457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 589824 の 4 つのチャンク、合計 2.25MiB 2020-08-17 15:53: 10.698457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 1048576 の 194 チャンク合計 194.00MiB 2020-08-17 15: 53:10.699457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 2097152 の 17 チャンク合計 34.00MiB 2020-08-17 15:53:10.699457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] 1 サイズ 2211840 のチャンク合計 2.11MiB 2020-08-17 15:53:10.700457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 2359296 の 146 チャンク合計 328.50MiB 2020-08-17 15:53:10.701457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] 1 チャンクサイズ 2360320 合計 2.25MiB 2020-08-17 15:53:10.701457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] 1サイズ 2621440 のチャンク合計 2.50MiB 2020-08-17 15:53:10.702457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680 ] サイズ 2698496 の 1 つのチャンク、合計 2.57MiB :680] 合計 3.50MiB のサイズ 3670016 の 1 つのチャンクcc:680] 合計 124.00MiB のサイズ 4194304 の 31 個のチャンクbfc_allocator.cc:680] 合計 27.00MiB のサイズ 4718592 の 6 つのチャンクcommon_runtime\bfc_allocator.cc:680] 合計 40.00MiB のサイズ 8388608 の 5 つのチャンクcore\common_runtime\bfc_allocator.cc:680] サイズ 9437184 の 25 チャンク、合計 225.00MiB 2020-08-17 15:53:10.705457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 9438208 の 2 つのチャンク合計 18.00MiB 2020-08-17 15:53:10.706457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 9441280 の 1 つのチャンク、合計 9.00MiB 2020-08-17 15:53: 10.706457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 16138752 の 1 つのチャンク合計 15.39MiB 2020-08-17 15: 53:10.707457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 18874368 の 1 チャンク、合計 18.00MiB 2020-08-17 15:53:10.707457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 37748736 の 1 チャンク合計 36。00MiB 2020-08-17 15:53:10.708457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:680] サイズ 51380224 の 7 つのチャンク合計 343.00MiB 2020-08-17 15:53:10.708457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:684]使用中のチャンク: 1.41GiB 2020-08-17 15:53:10.709457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:686 ] 統計: 制限: 1613615104 InUse: 1510723072 MaxInUse: 1510723072 NumAllocs: 3860 MaxAllocSize: 11994777600MiB 2020-08-17 15:53:10.708457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:684] 合計 in-チャンクを使用: 1.41GiB 2020-08-17 15:53:10.709457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:686] Stats : 制限: 1613615104 InUse: 1510723072 MaxInUse: 1510723072 NumAllocs: 3860 MaxAllocSize: 11994777600MiB 2020-08-17 15:53:10.708457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:684] 内の合計チャンクを使用: 1.41GiB 2020-08-17 15:53:10.709457: IC:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\36\tensorflow\core\common_runtime\bfc_allocator.cc:686] Stats : 制限: 1613615104 InUse: 1510723072 MaxInUse: 1510723072 NumAllocs: 3860 MaxAllocSize: 1199477761510723072 MaxInUse: 1510723072 NumAllocs: 3860 MaxAllocSize: 1199477761510723072 MaxInUse: 1510723072 NumAllocs: 3860 MaxAllocSize: 119947776

トレーニングは、2 GB の RAM を搭載した QuadroK420 で実行されています。問題はRAMが少ないだけですか、それとも何か不足していますか? 自分の装備でもトレーニングする方法はありますか?

4

3 に答える 3

1

おそらくRAMの問題です。バッチ サイズを 1 に減らすか、ネットワークを簡素化してみてください。これらの方法のいずれかが機能する場合は、より大きな RAM を備えたものを入手してください。

于 2020-08-17T14:14:02.733 に答える