tesseract を使用して、画像からテキストを抽出しています。ただし、特定の画像で発生している問題がいくつかあります。
テキストは、下の画像から完全にうまく抽出されています。
ただし、下の画像からはテキストが抽出されていません。テキストの周囲の四角が小さくなっていることに注意してください。
質問
2番目の画像からテキストをより適切に抽出するために、元の画像に対してできることは何ですか? 私はすでにimagemagickの-monochrome
フィルターを使用して画像BWを作成しています。
画像では、テキスト以外は気にしません。画像をトリミングして、白い背景とテキストだけで新しい画像を作成するために使用できる手法はありますか? 四角い円の座標が常にわかるとは限らないので、白い背景の座標を自動的に検出するトリミング機能が必要です..