私は vlfeat を試しており、画像データベースから膨大な量の機能を取得しており、平均精度 (MAp) のグラウンド トゥルースを使用してテストしています。全体として、私は約40%を得ました。私と非常によく似た手法を使用している間に、一部の論文でより高い MAp が得られたことがわかります。ワードの定番バッグ。
私は現在、ワードテクニックの標準バッグのより高い MAp を取得するための答えを探しています。SURF などの他の実装があることはわかりますが、この質問では、標準的な Lowe の SIFT と標準的な言葉の袋に固執しましょう。
つまり、vl_sift はしきい値を設定して、機能の選択をより厳密にすることができます。現在、しきい値を高くすると、より小さく意味のある「良い」機能リストが得られ、ノイズの多い機能が削減される可能性があることを理解しています。「良い」機能とは、同じ画像に異なるバリエーションがある場合、非常に類似した機能が他の画像でも検出されることを意味します。
しかし、このしきい値をどのくらい高く設定すればよいのでしょうか? ときどき、しきい値が高いと画像が特徴をまったく返さないことがあります。最初は、MAP が良くなるまで、しきい値を調整し続けようと考えていました。しかし、繰り返しますが、それぞれのデータベースに最適な MAp を見つけるためだけに調整を続けるのは悪い考えだと思います。だから私の質問は:
しきい値を調整すると機能の数が減少する可能性がありますが、しきい値を増やすと、より少ない数でより良い機能が常に返されますか?
優れた機能を取得するためのより良い方法はありますか?
優れた機能を取得する率を高めることができる他の要因は何ですか?