画像のピクセルを「通り」または「通りではない」に分類したいと思います。KITTI データセットからのトレーニング データがいくつかあり、Caffe にIMAGE_DATA
レイヤー タイプがあることがわかりました。ラベルは、入力画像と同じサイズの画像の形式で存在します。
Caffe の他に、この問題を解決するための私の最初のアイデアは、分類する必要があるピクセルの周囲に画像パッチを与えることでした (たとえば、上/左/右/下に 20 ピクセル、分類したいピクセルごとに 41×41=1681 の機能が得られます)。ただし、
これらの画像パッチを手動で作成せずにラベルを使用する方法を caffe に伝えることができれば (レイヤーの種類IMAGE_DATA
はそれが可能であることを示唆しているようです)、私はそれを好みます。
Caffe は画像のピクセルを直接分類できますか? このような prototxt ネットワーク定義はどのようになりますか? ラベルに関する情報を Caffe に提供するにはどうすればよいですか?
入力層は次のようになると思います
layers {
name: "data"
type: IMAGE_DATA
top: "data"
top: "label"
image_data_param {
source: "path/to/file_list.txt"
mean_file: "path/to/imagenet_mean.binaryproto"
batch_size: 4
crop_size: 41
mirror: false
new_height: 256
new_width: 256
}
}
ただし、crop_size
正確な意味はわかりません。本当に中心ですか?caffe は角のピクセルをどのように処理しますか? new_height
とは何new_width
ですか?