105

セマンティック セグメンテーションは単なる Pleonasm ですか、それとも「セマンティック セグメンテーション」と「セグメンテーション」に違いはありますか? 「シーンのラベル付け」または「シーンの解析」に違いはありますか?

ピクセルレベルのセグメンテーションとピクセルごとのセグメンテーションの違いは何ですか?

(補足質問: この種のピクセル単位の注釈がある場合、オブジェクト検出は無料で利用できますか?それとも何かすることはありますか?)

定義のソースを示してください。

「セマンティック セグメンテーション」を使用するソース

「シーンのラベル付け」を使用するソース

「ピクセルレベル」を使用するソース

  • Pinheiro、Pedro O.、および Ronan Collobert: 「畳み込みネットワークを使用した画像レベルからピクセルレベルのラベル付けまで」。コンピューター ビジョンとパターン認識に関する IEEE 会議の議事録、2015 年。 ( http://arxiv.org/abs/1411.6228を参照)

「ピクセル単位」を使用するソース

  • Li、Hongsheng、Rui Zhao、および Xiaogang Wang: 「ピクセル単位の分類のための畳み込みニューラル ネットワークの非常に効率的な前方および後方伝搬」。arXiv プレプリント arXiv:1412.4526 , 2014.

Google Ngram

最近は「シーンラベリング」よりも「セマンティックセグメンテーション」の方がよく使われているようです

ここに画像の説明を入力

4

3 に答える 3

66

オブジェクト検出、オブジェクト認識、オブジェクト セグメンテーション、画像セグメンテーション、セマンティック イメージ セグメンテーションに関する多くの論文を読みましたが、真実ではない可能性がある私の結論は次のとおりです。

オブジェクト認識: 特定の画像で、すべてのオブジェクトを検出する必要があります (オブジェクトの制限されたクラスはデータセットによって異なります)。それらを境界ボックスでローカライズし、その境界ボックスにラベルを付けます。下の画像では、最先端のオブジェクト認識の簡単な出力が表示されます。

物体認識

オブジェクト検出: オブジェクト認識に似ていますが、このタスクでは、オブジェクト境界ボックスと非オブジェクト境界ボックスを意味するオブジェクト分類の 2 つのクラスしかありません。たとえば、車の検出: 特定の画像内のすべての車を境界ボックスで検出する必要があります。

物体検出

オブジェクトのセグメンテーション: オブジェクト認識と同様に、画像内のすべてのオブジェクトを認識しますが、出力には、このオブジェクトが画像のピクセルを分類したものを表示する必要があります。

オブジェクトセグメンテーション

画像のセグメンテーション: 画像のセグメンテーションでは、画像の領域をセグメント化します。出力は、互いに一致する画像のセグメントと領域にラベルを付けませんが、同じセグメントにある必要があります。画像からスーパー ピクセルを抽出することは、このタスクまたは前景と背景のセグメンテーションの一例です。

画像セグメンテーション

セマンティック セグメンテーション: セマンティック セグメンテーションでは、オブジェクト (車、人、犬など) と非オブジェクト (水、空、道路など) のクラスで各ピクセルにラベルを付ける必要があります。つまり、セマンティック セグメンテーションでは、画像の各領域にラベルを付けます。

セマンティックセグメンテーション

ピクセルレベルとピクセル単位のラベル付けは基本的に同じで、画像のセグメンテーションまたはセマンティックなセグメンテーションであると思います。このリンクの質問にも同じように答えました。

于 2016-01-09T08:25:14.263 に答える
36

以前の回答は本当に素晴らしいです。さらにいくつかの追加事項を指摘したいと思います。

オブジェクトのセグメンテーション

これが研究コミュニティで支持されなくなった理由の 1 つは、問題があるほど曖昧だからです。オブジェクトのセグメンテーションは、画像内の単一または少数のオブジェクトを見つけて、それらの周りに境界線を引くことを意味するだけでしたが、ほとんどの目的では、これは今でもこれを意味すると想定できます。ただし、オブジェクトである可能性のあるブロブのセグメンテーション、背景からのオブジェクトのセグメンテーションを意味するためにも使用されるようになりました。(より一般的には、バックグラウンド減算、バックグラウンド セグメンテーション、またはフォアグラウンド検出と呼ばれます)、場合によっては、バウンディング ボックスを使用したオブジェクト認識と同じ意味で使用されます (これは、オブジェクト認識へのディープ ニューラル ネットワーク アプローチの出現ですぐに停止しましたが、以前はオブジェクト認識も可能でした)。オブジェクトを含む画像全体に単純にラベルを付けるという意味です)。

「セグメンテーション」を「セマンティック」にするものは何ですか?

Simpy では各セグメント、またはディープ メソッドの場合は各ピクセルに、カテゴリに基づくクラス ラベルが与えられます。一般に、セグメンテーションは、何らかの規則による画像の分割にすぎません。たとえば、非常に高いレベルからの平均シフトセグメンテーションは、画像のエネルギーの変化に従ってデータを分割しますグラフカットベースのセグメンテーションも同様に学習されず、残りの画像とは別の各画像のプロパティから直接導出されます。最近の (ニューラル ネットワーク ベースの) メソッドは、ラベル付けされたピクセルを使用して、特定のクラスに関連付けられている局所的な特徴を識別することを学習し、次に、そのピクセルの信頼度が最も高いクラスに基づいて各ピクセルを分類します。このように、「ピクセルのラベル付け」は実際にはタスクのより正直な名前であり、「セグメンテーション」コンポーネントは緊急です。

インスタンスのセグメンテーション

おそらく、オブジェクト セグメンテーションの最も困難で関連性があり、本来の意味である「インスタンス セグメンテーション」は、同じタイプであるかどうかに関係なく、シーン内の個々のオブジェクトのセグメンテーションを意味します。ただし、これが非常に難しい理由の 1 つは、ビジョンの観点から (そしてある意味では哲学的な観点から)、何が「オブジェクト」インスタンスを構成するのかが完全に明確ではないためです。体のパーツはオブジェクトですか?そのような「部分オブジェクト」は、インスタンス セグメンテーション アルゴリズムによってセグメント化されるべきでしょうか? 全体から分離して見られる場合にのみ、セグメント化する必要がありますか? 2 つのものが明確に隣接しているが、1 つまたは 2 つのオブジェクトに分離できる複合オブジェクトについてはどうでしょうか (適切に作成されていない限り、棒の先端に接着された岩は斧、ハンマー、または単に棒と岩ですか?)。また、それは' インスタンスを区別する方法が明確ではありません。遺言は、それが取り付けられている他の壁とは別のインスタンスですか? インスタンスはどのような順序で数えるべきですか? 彼らが現れるように?視点に近い?これらの困難にもかかわらず、オブジェクトのセグメンテーションは依然として重要です。なぜなら、人間はオブジェクトの「クラス ラベル」に関係なく常にオブジェクトとやり取りしているからです (あなたの周りのランダムなオブジェクトをペーパーウェイトとして使用し、椅子ではないものに座っています)。そのため、一部のデータセットはこの問題を解決しようとしていますが、問題がまだ十分に定義されていないことが主な理由です。 ここに画像の説明を入力

シーンの解析/シーンのラベル付け

シーン解析は、シーンのラベル付けに対する厳密なセグメンテーション アプローチであり、それ自体にもいくつかのあいまいさの問題があります。歴史的に、シーンのラベル付けは、「シーン」(画像) 全体をセグメントに分割し、それらすべてにクラス ラベルを与えることを意味していました。ただし、明示的にセグメント化せずに、画像の領域にクラス ラベルを付けるという意味でも使用されていました。セグメンテーションに関して、「セマンティック セグメンテーション」は、シーン全体を分割することを意味するものではありません。セマンティック セグメンテーションの場合、アルゴリズムは、認識しているオブジェクトのみをセグメント化することを目的としており、ラベルを持たないピクセルにラベルを付けるための損失関数によってペナルティが課せられます。たとえば、MS-COCO データセットは、一部のオブジェクトのみがセグメント化されるセマンティック セグメンテーション用のデータセットです。 MS-COCO サンプル画像

于 2017-03-28T22:59:04.307 に答える