Tessaractを使用してレセプトと請求書からデータを抽出しようとしています。tesseract3.02バージョンを使用しています。
英語のデータのみを使用していますが、それでも出力精度は約60%です。
tessdataフォルダーで置き換えるトレーニング済みデータはありますか?
Tessaractを使用してレセプトと請求書からデータを抽出しようとしています。tesseract3.02バージョンを使用しています。
英語のデータのみを使用していますが、それでも出力精度は約60%です。
tessdataフォルダーで置き換えるトレーニング済みデータはありますか?
これは、「典型的なサンプル ファイル」として nicky が提供する画像です。
それを見て、私ははっきりとこう言います。
ただし、iPhone 3GS (例の写真に使用されたデバイス) でそのような種類のレシートからより良い写真を作成するように訓練することはできます。いくつかのヒントを次に示します。
とはいえ、次の ImageMagick コマンドのようなものは、おそらく Tesseract の認識率をある程度向上させるでしょう。
convert \
http://i.stack.imgur.com/q3Ad4.jpg \
-colorspace gray \
-rotate 90 \
-crop 260x540+110+75 +repage \
-scale 166% \
-normalize \
-colors 32 \
out1 .png
次の出力が生成されます。
-threshold 30%
上記のコマンドの最後のコマンドライン オプションのようなものを追加して、これを取得することもできます。
(結果を微調整するために、値にいくつかのバリエーションを加えて少し遊ぶ必要があり30%
ます... 私にはこれを行う時間がありません。)
領収書から正確な情報を取得することは、tesseract では不可能ではありません。Tesseract と一緒に、画像フィルターと OpenCV、NumPy ImageMagick などの他のツールを追加する必要があります。PyCon 2013 で Franck Chastagnol によるプレゼンテーションがあり、彼の会社がどのようにそれを行ったかを説明しています。
リンクは次のとおりです。 http://pyvideo.org/video/1702/building-an-image-processing-pipeline-with-python
Tesseract を使用してテキストを OCR する前に、よりきれいな後処理された画像を取得できます。他の単純なしきい値処理方法ではなく、Background Surface Thresholding (BST) 手法を使用してみてください。この件に関するホワイト ペーパーは、こちらにあります。
かなりうまく機能するOpenCV用のBSTの実装があります https://stackoverflow.com/a/22127181/3475075