PNGビットマップスクリーンショットからテキストを抽出するためのライブラリなどはありますか?
これはオートマイザー用で、(たとえば) ボタンなどを読み取ることができます。Tesseract を確認しましたが、コンピューターの画面フォントではなく、画像用に作成されているようです。
少量の可能な一致を処理している場合 (つまり、2 つまたは 3 つの異なるボタンを認識したい場合)、最も簡単な方法は、前のスクリーンショットでそれらを分離し、個別のファイルに保存してから、何らかの形式を使用することです。テンプレート マッチング。これはopencv では非常に簡単です。
ただし、実際にボタン テキストの認識を実行する必要がある場合は、OCR エンジンが必要になります。Tesseract は、フォント用にトレーニングできる場合(時間のかかるプロセスです) 、良い候補です。あなたが言及したように、tesseractが元々認識できるように訓練されていない小さなフォントを扱っている場合は、これを行う必要があります。できない場合は、Ocropusなど、Python で使用できる他のエンジンがいくつかあります。