画像記述子の古典的なバッグ オブ ワード パラダイムでは、次のことを行います。
- 各画像の一連の記述子を定義する
- すべての画像のすべての記述子のセットで k-means をランチします。
- その結果、各記述子はクラスターに割り当てられます。
- 「ビジュアル ワード」 (つまり、ベクトルを介して画像を表現する方法) を定義します。各画像について
i-th
、「ビジュアル ワード」ベクトルの次元をクラスターに属する記述子の数として定義しi-th
ます。 k-dimension
画像を表す「ビジュアル ワード」ベクトルを取得しました。
このアプローチは、複雑で高価な SIFT 記述子に最適です...しかし、バイナリと高速記述子 (BRIEF、ORB、BRISK、FREAK など) についても同じですか?
この記事によると違いはありませんが、高価なk-means
アルゴリズムをバイナリ空間で効率的に計算できるかどうか (または、より優れたクラスタリング アルゴリズムがあるかどうか)、またはバイナリ ベクトルを使用したバッグ オブ ワード モデルの代替アプローチがあるかどうかは疑問です。