単語ヒストグラムのバッグを使用してオブジェクト認識を実装しています。ヒストグラムは、画像ごとに 200 個の「単語」で構成され、記述子からの kmeans です。問題は、大規模なデータセット (たとえば 5000 枚の画像) の場合、ヒストグラムに突然 200x5000=1,000,000 語が含まれることです。これは、すべてのオブジェクトが 1,000,000 の長さのヒストグラムで表されることを意味します。
これは、ある時点を過ぎると大きすぎて扱いにくくなります。この辺になんかあるの?
単語ヒストグラムのバッグを使用してオブジェクト認識を実装しています。ヒストグラムは、画像ごとに 200 個の「単語」で構成され、記述子からの kmeans です。問題は、大規模なデータセット (たとえば 5000 枚の画像) の場合、ヒストグラムに突然 200x5000=1,000,000 語が含まれることです。これは、すべてのオブジェクトが 1,000,000 の長さのヒストグラムで表されることを意味します。
これは、ある時点を過ぎると大きすぎて扱いにくくなります。この辺になんかあるの?
一般に、トレーニング イメージの数に依存しないコードブック サイズを選択します。すべてのトレーニング データから抽出された一連の記述子に対して k-means (またはその他の辞書学習法) を実行して、コードブックを作成します。
したがって、あなたの例では、5000 のトレーニング画像と、各画像から抽出された約 1000 の記述子がある場合、k-means を使用してクラスター化できる 5,000,000 の記述子が得られます。
これには非常に時間がかかる可能性があるため、記述子のランダムなサブセットを使用してクラスター化することを選択できます。