OpenCV を使用して Bag-of-Words 画像分類子を実装しています。最初に、SURF キーポイントで抽出された SURF 記述子をテストしました。Dense SIFT (または PHOW) 記述子の方が私の目的に適していると聞いたので、それらも試してみました。
驚いたことに、彼らのパフォーマンスはかなり悪く、実際には 10 倍近く悪かったのです。私は何が間違っているのでしょうか?キーポイントを取得するために OpenCV の DenseFeatureDetector を使用しています。9 つのレイヤーから画像ごとに約 5000 の記述子を抽出し、それらを 500 のクラスターにクラスター化しています。
VLFeat ライブラリの PHOW 記述子を試す必要がありますか? また、多くの論文で推奨されている OpenCV の SVM 実装ではカイ 2 乗カーネルを使用できません。これは分類器の品質にとって重要ですか? 別のライブラリを試す必要がありますか?
もう 1 つの問題は、スケールの不変性です。これは、密な特徴抽出の影響を受ける可能性があると思われます。私は正しいですか?