問題タブ [semantic-segmentation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
computer-vision - Caffe は画像のピクセルを直接分類できますか?
画像のピクセルを「通り」または「通りではない」に分類したいと思います。KITTI データセットからのトレーニング データがいくつかあり、Caffe にIMAGE_DATA
レイヤー タイプがあることがわかりました。ラベルは、入力画像と同じサイズの画像の形式で存在します。
Caffe の他に、この問題を解決するための私の最初のアイデアは、分類する必要があるピクセルの周囲に画像パッチを与えることでした (たとえば、上/左/右/下に 20 ピクセル、分類したいピクセルごとに 41×41=1681 の機能が得られます)。ただし、
これらの画像パッチを手動で作成せずにラベルを使用する方法を caffe に伝えることができれば (レイヤーの種類IMAGE_DATA
はそれが可能であることを示唆しているようです)、私はそれを好みます。
Caffe は画像のピクセルを直接分類できますか? このような prototxt ネットワーク定義はどのようになりますか? ラベルに関する情報を Caffe に提供するにはどうすればよいですか?
入力層は次のようになると思います
ただし、crop_size
正確な意味はわかりません。本当に中心ですか?caffe は角のピクセルをどのように処理しますか? new_height
とは何new_width
ですか?
image-processing - 「セグメンテーション」および「シーンのラベル付け」と比較した「セマンティック セグメンテーション」とは何ですか?
セマンティック セグメンテーションは単なる Pleonasm ですか、それとも「セマンティック セグメンテーション」と「セグメンテーション」に違いはありますか? 「シーンのラベル付け」または「シーンの解析」に違いはありますか?
ピクセルレベルのセグメンテーションとピクセルごとのセグメンテーションの違いは何ですか?
(補足質問: この種のピクセル単位の注釈がある場合、オブジェクト検出は無料で利用できますか?それとも何かすることはありますか?)
定義のソースを示してください。
「セマンティック セグメンテーション」を使用するソース
- Jonathan Long、Evan Shelhamer、Trevor Darrell:セマンティック セグメンテーションのための完全な畳み込みネットワーク。CVPR、2015年およびPAMI、2016年
- Hong、Seunghoon、Hyeonwoo Noh、および Bohyung Han: 「半教師付きセマンティック セグメンテーションのための分離されたディープ ニューラル ネットワーク」。arXivプレプリント arXiv:1506.04924 , 2015.
- V. Lempitsky、A. Vedaldi、および A. Zisserman: セマンティック セグメンテーションのパイロン モデル。神経情報処理システムの進歩、2011年。
「シーンのラベル付け」を使用するソース
- Clement Farabet、Camille Couprie、Laurent Najman、Yann LeCun:シーン ラベル付けの階層機能の学習。パターン分析とマシン インテリジェンス、2013 年。
「ピクセルレベル」を使用するソース
- Pinheiro、Pedro O.、および Ronan Collobert: 「畳み込みネットワークを使用した画像レベルからピクセルレベルのラベル付けまで」。コンピューター ビジョンとパターン認識に関する IEEE 会議の議事録、2015 年。 ( http://arxiv.org/abs/1411.6228を参照)
「ピクセル単位」を使用するソース
- Li、Hongsheng、Rui Zhao、および Xiaogang Wang: 「ピクセル単位の分類のための畳み込みニューラル ネットワークの非常に効率的な前方および後方伝搬」。arXiv プレプリント arXiv:1412.4526 , 2014.
Google Ngram
最近は「シーンラベリング」よりも「セマンティックセグメンテーション」の方がよく使われているようです
tensorflow - セマンティック セグメンテーションのための完全な畳み込みニューラル ネットワーク
素朴な質問かもしれませんが、このような質問をするのに適切なチャネルでない場合は申し訳ありません。セマンティック セグメンテーション用の FCNN の実装に成功しましたが、デコンボリューションやアンプーリング レイヤーは使用していません。
私が単純に行っているのは、最終的な FCNN レイヤーのサイズに合わせてグラウンド トゥルース イメージのサイズを変更し、損失を計算することです。このようにして、出力として小さい画像を取得しますが、正しくセグメント化されています。
デコンボリューションまたはアンプーリングのプロセスはまったく必要ですか?
つまり、Python で画像のサイズを変更するのはとても簡単です。確かに私は何かが恋しいです。
unpooling と deconv を使用して画像を拡大する利点は何ですか?
deep-learning - Semantic Sermentation、仮面について?
7 x 7 のフィーチャー マップなどのフィーチャー マップでマスクを取得した場合、これらの 7 x 7 のマスクが最終的に生の画像のマスクになるにはどうすればよいですか? 補間またはアップサンプリングを使用していますか? 私に関する限り、49 ピクセルしかない 7 x 7 の特徴マップでマスクを行う場合、49 ピクセルのみで特定しすぎることはできないため、生の画像でオブジェクトをマスクするには粗すぎますか? ...
どうもありがとう!!
python-3.x - Pascal VOC pickle データセットの Pickle を読み込めません
スタンフォードのウェブサイトhereから Pascal VOC データセットを読み込もうとしています。また、Pascal VOC Pystruct blog でセマンティック イメージ セグメンテーションのコードを実装しようとしています。しかし、ピクル ファイルを読み込もうとすると UnicodeDecodeError が発生します。これまでのところ、以下のコードを試しました:
そして、私はこのエラーを受け取りました:
同じ問題と解決策が見つかりませんでした。これを機能させるにはどうすればよいですか?