問題タブ [faster-rcnn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
computer-vision - 境界ボックスのスケール不変性と対数空間変換とは?
遅い R-CNN 論文では、バウンディング ボックス回帰の目標は、提案されたバウンディング ボックス P をグラウンド トゥルース ボックス G にマッピングする変換を学習することであり、4 つの関数 dx(P)、dy(P) で変換をパラメーター化します。 、dw(P)、dh(P)。
最初の 2 は、P のバウンディング ボックスの中心のスケール不変の移動を指定します。
2 番目の 2 つは、オブジェクト プロポーザルに対する P のバウンディング ボックスの幅と高さの対数空間変換を指定します。
これは、高速 RCNN 論文で BB 予測にも使用されているのと同じ手法です!
質問1。バウンディングボックスのスケール不変性と対数空間(両方)の関連性と、これらの関数がこれら2つの側面をどのようにキャプチャするかを理解するのを手伝ってくれる人はいますか?
質問2。上記のBB スケール不変変換は、スケール不変オブジェクト検出(以下で説明)の達成とどう違うのでしょうか?
つまり、高速 R-CNN では、著者は、以下の 2 つの方法でオブジェクト検出のスケール不変性を達成できると指摘しました。
まず、ブルート フォース アプローチでは、トレーニングとテストの両方で、各画像が事前に定義されたピクセル サイズで処理されます。ネットワークは、トレーニング データからスケール不変オブジェクト検出を直接学習する必要があります。
2 番目のアプローチは、画像ピラミッドを使用することです。
詳細な理解のために読むことができるように、研究論文を自由に引用してください.