問題タブ [faster-rcnn]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

312 問題

0 投票する

1 に答える

1200 参照

computer-vision - 境界ボックスのスケール不変性と対数空間変換とは?

遅い R-CNN 論文では、バウンディングボックス回帰の目標は、提案されたバウンディングボックス P をグラウンドトゥルースボックス G にマッピングする変換を学習することであり、4 つの関数 dx(P)、dy(P) で変換をパラメーター化します。、dw(P)、dh(P)。

最初の 2 は、P のバウンディングボックスの中心のスケール不変の移動を指定します。
2 番目の 2 つは、オブジェクトプロポーザルに対する P のバウンディングボックスの幅と高さの対数空間変換を指定します。

これは、高速 RCNN 論文で BB 予測にも使用されているのと同じ手法です!

質問1。バウンディングボックスのスケール不変性と対数空間(両方)の関連性と、これらの関数がこれら2つの側面をどのようにキャプチャするかを理解するのを手伝ってくれる人はいますか?

質問2。上記のBB スケール不変変換は、スケール不変オブジェクト検出(以下で説明)の達成とどう違うのでしょうか?

つまり、高速 R-CNN では、著者は、以下の 2 つの方法でオブジェクト検出のスケール不変性を達成できると指摘しました。

まず、ブルートフォースアプローチでは、トレーニングとテストの両方で、各画像が事前に定義されたピクセルサイズで処理されます。ネットワークは、トレーニングデータからスケール不変オブジェクト検出を直接学習する必要があります。
2 番目のアプローチは、画像ピラミッドを使用することです。

詳細な理解のために読むことができるように、研究論文を自由に引用してください.

2019-04-06T21:45:34.197

1 2 3 4 5 6 7 8 9 10

問題タブ [faster-rcnn]

computer-vision - 境界ボックスのスケール不変性と対数空間変換とは?

Reference