Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
Tesseract ORCライブラリを使用して、画面で撮影した画像からテキストを抽出しています。問題は、最近のほとんどのカメラは、写真を撮っているときにディスプレイ上のピクセルもキャプチャすることです。
とにかく、フィルターやしきい値のようにビットマップに適用して、テキストをより明確なテキストに「抽出」し、正八胞体でより良い結果を得ることができますか?
例、処理前:
処理後(フォトショップでのしきい値効果):
Tesseract には組み込みのしきい値メソッド がありTessBaseAPI#ThresholdRectます。あなたはそれを試しましたか?もしそうなら、どのような問題がありましたか?
TessBaseAPI#ThresholdRect
一部の写真でうまく機能しなかった場合は、「平均」または「適応」しきい値アルゴリズムを調べてみてください。Tesseract は単純なしきい値のように見えるため、暗い/明るい色にはうまく適応しない可能性があります。微調整なしの画像。