1

私はコンピュータービジョンのプロジェクトを行っていますが、助けが必要です。私のプロジェクトの目的は、あらゆるオブジェクトの属性を抽出することです。たとえば、Nike のランニング シューズを持っている場合、まずそれが靴であることを認識し、次にそれが Nike の靴であることを認識できる必要があります。 Adidas の靴ではなく (おそらく Nike のダニのため)、それがランニング シューズであり、フットボールのスタッドではないことがわかります。

これを画像分類の問題として扱うことから始めました。次の手順を使用しています。

  1. 靴、かかと、時計などのトレーニング サンプル (それぞれ約 60 個) を取得し、Dense SIFT を使用してそれらの特徴を抽出しました。
  2. k-means クラスタリングを使用してボキャブラリを作成します (ボキャブラリ サイズを 600 に任意に選択)。
  3. 画像の Bag-Of-Words 表現を作成します。
  4. SVM 分類器をトレーニングして、すべてのクラス (靴、かかと、時計) のバッグ オブ ワード (特徴ベクトル) を取得します。
  5. テストのために、テスト画像の特徴ベクトルを抽出し、既に作成されたボキャブラリからそのバッグオブワード表現を見つけました。
  6. テスト画像のbag-of-wordsと各クラスのbag-of-wordsを比較し、最も一致したクラスを返しました。

ここからどのように進めばよいか知りたいですか?D-SIFT を使用した特徴抽出は、特定の点の周囲の勾配のみを表すため、属性の識別に役立ちますか?

また、分類が間違っている場合もあります。たとえば、左の靴と時計の画像を使用して分類器をトレーニングした場合、右の靴が時計として分類されます。この問題を解決するには、トレーニング セットに適切な靴を含める必要があることは理解していますが、従うべき他のアプローチはありますか?

また、形状を理解する方法はありますか?たとえば、時計の分類子をトレーニングした場合、トレーニング セットに円形と長方形の両方の文字盤を持つ時計がある場合、新しいテスト画像の形状を識別できますか? それとも、円形と長方形の文字盤を備えた時計用に個別にトレーニングするだけですか? ありがとう

4

0 に答える 0