問題タブ [python-tesseract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - Ubuntu 16.04 で pip3 を使用して「tesserocr」をインストールできない
コマンドを使用して、Ubuntu 16.04にpython 3.5用の「tesserocr」モジュールをインストールしようとしています
pip3 install tesserocr --user
また
sudo pip3 install tesserocr
以下を使用して、Tesseract 3.04 と Leptonica 1.73 を既にインストールしています。
sudo apt-get install tesseract-ocr libtesseract-dev libleptonica-dev
「tesserocr」をインストールしようとすると、何らかの理由で Cython がコンパイラ エラーを生成します。
なぜこれが起こっているのか理解できません!:/
imagemagick - PDFに変換された画像から署名を抽出する方法
画像から変換されたPDFファイルがたくさんあります。そこからテキストと手書きの署名を抽出する必要があります。Imagemagik と Tesseract を使用してテキストを抽出することはできますが、手書きの署名を抽出することはできません。これらの文書から手書きの署名を抽出する方法があれば教えてください。
python - Tesseract API を使用して単語を反復するにはどうすればよいですか?
Tesseract API と並行して Python を学習しようとしています。私の最終的な目標は、Tesseract API を使用してドキュメントを読み取り、基本的なエラー チェックを行う方法を学ぶことです。開始するのに適していると思われるいくつかの例を見つけましたが、動作は異なりますが、同等であるように思われる2つのコードの違いを理解するのに苦労しています。これらは両方ともhttps://pypi.python.org/pypi/tesserocrからわずかに変更されました。
最初の例では、次の出力が生成されます。
これは正確で、14 秒で完了します。残りの出力を確認すると、かなり良い結果が得られます。おそらく、99% 以上の精度から SetVariable コマンドをいくつか実行する必要があります。
結果を手動で確認すると、すべてのテキストを取得しているように見えます。
2 番目の例では、この出力が生成されます。
これは精度が低く (単語内に余分なスペースが検出される)、遅くなります (17.5 秒かかります)。
これには大量のテキストがひどく欠けており、なぜ一部が欠けているのかわかりません。
私の最終目標は、ドキュメント内のテキストがどこにあるかを理解することに依存しているため、2 番目の例のような境界ボックスが必要です。私が知る限り、 iterate_level は見つかったテキストの座標を公開していないため、GetComponentImages が必要ですが、出力は同等ではありません。
これらのコードの動作の速度と精度が異なるのはなぜですか? GetComponentImages を GetIterator と一致させることはできますか?