画像検索でいくつかのことをテストしていますが、データセットの悪い写真を整理する方法を考えていました。たとえば、家の写真だけがあり、その間に人の写真と車の写真があります。だから最後に家だけを手に入れたい。現時点で私のアプローチは次のようになります。
- すべての画像の記述子の計算 (Sift)
- k-means によるすべての記述子のクラスタリング
- クラスターの中心と画像の記述子との間のユークリッド距離を計算することにより、画像のヒストグラムを作成する
- ヒストグラムを再度クラスタリングします。
この時点で、私は最初の並べ替えを取得しました (これはあまり良くありません)。今私の考えは、中心にクラスター化されているすべての写真を撮り、len(center) > 1
それらを何度もクラスター化することです。その結果、中心にこだわった写真が選別されます。再度クラスタリングせずに、結果を同じ k-means に再度適合させるだけで十分でしょうか?!
結果は満足のいくものではないので、誰かが良いアイデアを思いついたのかもしれません。
クラスタリングなどには、scikit Learn の k-means を使用しています。