NYU depth v2 データセットを使用して、単一の画像から深度を推定できる CNN を実装する予定です。チュートリアルを進めると、Caffe で分類問題を処理する CNN を簡単に実装できることがわかりました。Caffe が、多次元のグラウンド トゥルース (深度画像など) と回帰 (深度推定) を含むタスクに適しているかどうかに興味があります。
私が達成したいのは、深度画像を推定できる CNN をトレーニングするためのグラウンド トゥルースとして深度画像を使用することです。ラベルを単一チャネルの画像データとしてロードする必要があります。
私の問題に関連するシェルハマーによるこの回答しか見つけることができませんでしたhttps://groups.google.com/d/msg/caffe-users/JXmZrz4cCMU/mBTU1__ohg4J
入力用と深度データ用の 2 つのトップ レイヤーをグラウンド トゥルースとして定義する必要があることを理解しています。次に、損失レイヤー (EucledianLoss など) を使用して損失を計算します。以下にモデルを追加しました。
このモデルは意図したとおりに機能しますか? そうでない場合、Caffe でそれを行う他の方法はありますか?
layer {
name: "data"
type: "ImageData"
top: "data"
image_data_param {
source: "input_set.txt"
batch_size: 50
}
}
layer {
name: "label"
type: "ImageData"
top: "label"
image_data_param {
source: "depth_set.txt"
batch_size: 50
}
is_color: false
}
layer {
name: "loss"
type: "EuclideanLoss"
bottom: "some_output_layer_name"
bottom: "label"
top: "loss"
}