最近、TesseractとOpenCVに出会いました。Tesseract は本格的な OCR エンジンであり、OpenCV をフレームワークとして使用して OCR アプリケーション/サービスを作成できるようです。
一部の画像で Tesseract を使用してみましたが、その精度はまともなようです。その後、OpenCV を使用して Python を使用して OCR を実行するという非常に簡単なチュートリアルに出会い、感銘を受けました。数分でシステムのトレーニングを終了し、精度は良好でした。しかしもちろん、このアプローチを採用するということは、大規模なトレーニング セットを使用してシステムを広範囲にトレーニングする必要があることを意味します。
私の具体的な質問は次のとおりです。
- カスタム OCR アプリを構築するために、Tesseract と OpenCV のどちらを使用するかをどのように選択しますか?
- さまざまな言語の Tesseract で使用できるトレーニング データセットがあります。OCRを実現するためにゼロから始める必要がないように、OpenCVには似たようなものがありますか?
- 商用アプリケーションになりたい場合は、どちらが優れていますか?
助言がありますか?