画像が視覚的にどのように見えるかを示すために、データセットの 3 つの画像を投稿しています。
http://s1306.photobucket.com/user/Bidisha_Chakraborty/library/?page=1
VLFFeat DSIFT 実装を使用しています。記述子ごとに 8 ではなく 4 方向を使用しています。したがって、私の場合は 128 ではなく 64 次元のベクトルです。画像データはもともと固定距離から取得されているため、画像には元のスケールを使用しています。記述子を 4/8 ピクセル間隔で密に計算しています。ウィンドウ サイズを 80*80 ピクセルから 20*20 ピクセルに変更して、いくつかの実験を行いました。さまざまな数のクラスターセンターを使用してクラスター化アプローチを行いました。そして最後に、アースムーバーの Distance を使用して類似性メトリックを計算しました。ウィンドウ サイズ、単語数のさまざまなパラメータ調整の後、1 と 3 のようなほぼ類似した画像がある場合でも、距離メトリックは、画像 1 が画像 2 よりも画像 1 から画像 3 に類似していることを示しています。
主成分分析を行って、データの分散を確認しました。イメージ 1 とイメージ 2 はクラスターが分離していて、イメージ 1 と 3 はクラスターが重なっていると予想していました。最初の 3 つの次元をプロットしましたが、これらの 3 つの次元はデータの 30% 未満しか占めていないため、すべての次元 (もちろん視覚化できませんでした) を含めると、より悪い結果が得られると確信しています。
- SIFT は私のアプリケーションにとって最適なものではないと結論付けるべきでしょうか、それとも何かを見逃しているのでしょうか。これらにはすでに GLCM を使用しましたが、良い結果が得られませんでした。他の機能空間についての提案は大歓迎です。あらゆる種類の洞察に感謝します。