2

画像上の文字を認識するためのモデルのトレーニングに行き詰まっています。私が現在行っていることは、TensorFlow オブジェクト検出リポジトリから事前定義された高速 rcnn を使用して、比較的小さな画像 (700x50) 内の文字を認識しようとしています。画像には、識別したい最大 13 個の文字と、認識する必要のない背景の小さな記号と文字が含まれています。

TensorFlow モデル Zoo (python を使用) の構成ファイルで採用されたいくつかのモデルを既にトレーニングしており、トレーニングの結果 (分類の精度と損失) は良好です。ただし、ボックスの予測/地域の提案はうまくいきません。画像でモデルを使用する場合、常に最初または最初と 2 番目の文字が検出されます。他のキャラクターは、モデルによってまったく見つかりません。私はすでにアンカーパラメータやその他のものを微調整しようとしましたが、それは私の質問にとって重要ではありません.

私の質問は次のとおりです:モデルの領域提案(RPN)によって予測されたボックス/アンカーをどのように出力できますか? 何が起こっているのか、なぜ他の文字が見つからないのかを理解するためにモデルをどのように変更する必要があるかを知りたいです-正しく分類されることは言うまでもありません。しかし、調べるためには、アンカー サイズや最大予測などの多くのオプションを変更しようとしたにもかかわらず、モデルが最初の 2 文字しか見つけられない理由を理解するために、RPN が何をしているのかを知る必要があります...

TensorFlow の高速 RCNN モデルで RPN の提案を出力する方法について誰かが魔法の答えを持っている場合、そこから最終結果にならない理由を見つけることができます。それは素晴らしいことです。しかし、ここから先に進む方法についてのヒントも同様に嬉しいです。たとえば、RCNN を自分で構築し、TensorFlow 動物園などのモデルを使用しないでください。数か月間、このモデルにさらに取り組みますので、より良いモデルを作成する方法についてのヒントをいただければ幸いです。

前もって感謝します。

4

0 に答える 0