トリミングされた手の画像(+手のないランダムな画像)の大きなセットでconvnetをトレーニングし、画像のすべてのサブスクエアに分類子を適用することを考えていました。これは良いアプローチですか?
はい、これは良いアプローチだと思います。ただし、ランダムと言う場合は、おそらく「手が現れる可能性が最も高い」画像からサンプリングする必要があることに注意してください。それはユースケースに大きく依存し、何をしているかに合わせてデータセットを調整する必要があります。
データセットを構築する方法は、次のようになります。
- 大きな画像から手の画像を切り抜きます。
- 同じ画像から X 個の画像をサンプリングしますが、手の近くにはありません。
ただし、次のようなことを選択する必要がある場合:
- 大きな画像から手の画像を切り抜きます。
- 絶対に手を出さない画像を100万枚(大袈裟に)ダウンロード。たとえば、砂漠、海、空、洞窟、山など、基本的にたくさんの風景があります。そして、これを「手のないランダムな画像」として使用すると、悪い結果が生じる可能性があります。
この理由は、基礎となるディストリビューションが既に存在するためです。あなたのイメージのほとんどは、友達のグループ、家でパーティーをしている写真、または背景のイメージが建物である可能性があると思います。したがって、風景画像を導入すると、上記の仮定を保持しながら、この分布が破損する可能性があります。
したがって、「ランダムな画像」を使用する場合は十分に注意してください。
私の画像のすべてのサブスクエアに
質問のこの部分に関しては、基本的に画像全体でスライディング ウィンドウを実行しています。はい、実際には機能します。しかし、パフォーマンスを求めている場合、これは良い考えではないかもしれません。検索スペースを絞り込むために、いくつかのセグメンテーション アルゴリズムを実行することをお勧めします。
インスピレーションに使用できる複雑な 2 クラスの convnets / RNN の他の例はありますか?
複雑な2クラスのconvnetsの意味がわかりません。私は RNN に詳しくないので、convnets に焦点を当てます。基本的に、畳み込みネットは自分で定義できます。たとえば、畳み込み層のサイズ、層の数、最大プーリング方法、完全に接続された層の大きさなどです。最後の層は基本的にソフトマックス層であり、ネットがどのクラスになるかを決定します。なれ。2 つのクラスがある場合、最後のレイヤーには 2 つのノードがあります。3 つある場合は、3 などです。そのため、2 から 1000 までの範囲になる可能性があります。1000 を超えるクラスを持つ convnet については聞いたことがありませんが、情報が不足している可能性があります。これが役立つことを願っています!