9

画像のピクセルを「通り」または「通りではない」に分類したいと思います。KITTI データセットからのトレーニング データがいくつかあり、Caffe にIMAGE_DATAレイヤー タイプがあることがわかりました。ラベルは、入力画像と同じサイズの画像の形式で存在します。

Caffe の他に、この問題を解決するための私の最初のアイデアは、分類する必要があるピクセルの周囲に画像パッチを与えることでした (たとえば、上/左/右/下に 20 ピクセル、分類したいピクセルごとに 41×41=1681 の機能が得られます)。ただし、
これらの画像パッチを手動で作成せずにラベルを使用する方法を caffe に伝えることができれば (レイヤーの種類IMAGE_DATAはそれが可能であることを示唆しているようです)、私はそれを好みます。

Caffe は画像のピクセルを直接分類できますか? このような prototxt ネットワーク定義はどのようになりますか? ラベルに関する情報を Caffe に提供するにはどうすればよいですか?

入力層は次のようになると思います

layers {
  name: "data"
  type: IMAGE_DATA
  top: "data"
  top: "label"
  image_data_param {
    source: "path/to/file_list.txt"
    mean_file: "path/to/imagenet_mean.binaryproto"
    batch_size: 4
    crop_size: 41
    mirror: false
    new_height: 256
    new_width: 256
  }
}

ただし、crop_size正確な意味はわかりません。本当に中心ですか?caffe は角のピクセルをどのように処理しますか? new_heightとは何new_widthですか?

4

2 に答える 2

7

セマンティックセグメンテーションのために完全な畳み込みネットワークを試すことができるようです

Caffe はこの論文で引用されました: https://github.com/BVLC/caffe/wiki/Publications

また、モデルは次のとおりです: https://github.com/BVLC/caffe/wiki/Model-Zoo#fully-convolutional-semantic-segmentation-models-fcn-xs

また、このプレゼンテーションも役立ちます: http://tutorial.caffe.berkeleyvision.org/caffe-cvpr15-pixels.pdf

于 2015-09-08T08:37:54.717 に答える