基本的に、DoG ピラミッドを構築した後に彼が行うことは、それらの画像の極値を検出することです。その後、検出された局所極値の一部はおそらく不安定であるため、それらを破棄します。これらの不安定なキーポイント/機能を特定するプロセスは、次の 2 つの手順で行われます。
- コントラストの低いポイントを拒否する
- エッジに沿ってローカライズされていないポイントを拒否します (これは、一方向のみに強いエッジ応答があることを意味します)。
これらの手順を実行できるようにするには、まずテイラー級数展開を行って極値の真の位置を取得する必要があります。この 2 つのステップを解決するための情報を提供します。
最後のステップは、記述子を構築することです...
私もこのアルゴリズムを研究中ですが、理解するのはそれほど簡単ではありません。Lowe の論文には含まれていない詳細がいくつかあるため、理解が難しくなっています。このアルゴリズムをより深く説明する多くの追加リソースは見つかりませんでしたが、オープンソースの実装がいくつかあるので、それらを利用することもできます.
編集:詳細情報:)
リンクした論文は彼の初期の作品であり、いくつかの変更があるため、最新バージョンの論文を入手する必要があります。さらにリソースを探して彼の特許も読みましたが、古い情報も含まれているため、そちらも参照しないでください。
したがって、このスケール空間の極値ステップに関する私の理解は次のとおりです。まず、ガウス ピラミッドを構築する必要があります。論文によると、局所極値の完全性を得るには、各オクターブでs+3ガウス画像を構築する必要があります。いくつかのテストを行った Lowe は、 s = 3 の場合に最良の結果が得られると結論付けました。つまり、各オクターブに 6 つのガウス画像があり、そこから 5 つの DoG 画像が得られることを意味します。これらの DoG 画像はすべて同じ解像度であることに注意してください。リサンプリングは、次のオクターブに移行するときにのみ行われます。
次のステップは、極値を見つけることです。Lowe は 26 近傍内で検索することを提案しています。これは、2 番目の画像から検索を開始する必要があることを意味します。これは、26 近傍が存在する最初の画像だからです。同様に、4 番目の画像で検索を停止します。このプロセスは、オクターブごとに個別に繰り返されます。見つかった極値ごとに、少なくともその位置とスケールを保存する必要があります。次のステップで極値を見つけることは、テイラー級数で行われるより正確なローカリゼーションになります。
これは、このステップがどのように機能するかを理解しているものであり、真実からかけ離れていないことを願っています:)
これがもう少し役に立てば幸いです。