問題タブ [python-tesseract]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1353 問題

0 投票する

1 に答える

1481 参照

python-3.x - Ubuntu 16.04 で pip3 を使用して「tesserocr」をインストールできない

コマンドを使用して、Ubuntu 16.04にpython 3.5用の「tesserocr」モジュールをインストールしようとしています

pip3 install tesserocr --user

また

sudo pip3 install tesserocr

以下を使用して、Tesseract 3.04 と Leptonica 1.73 を既にインストールしています。

sudo apt-get install tesseract-ocr libtesseract-dev libleptonica-dev

「tesserocr」をインストールしようとすると、何らかの理由で Cython がコンパイラエラーを生成します。

なぜこれが起こっているのか理解できません！:/

2016-10-26T00:07:28.507

0 投票する

0 に答える

591 参照

imagemagick - PDFに変換された画像から署名を抽出する方法

画像から変換されたPDFファイルがたくさんあります。そこからテキストと手書きの署名を抽出する必要があります。Imagemagik と Tesseract を使用してテキストを抽出することはできますが、手書きの署名を抽出することはできません。これらの文書から手書きの署名を抽出する方法があれば教えてください。

imagemagick tesseract imagemagick-convert pdftotext python-tesseract

2016-12-06T21:50:42.370

0 投票する

1 に答える

5043 参照

python - Tesseract API を使用して単語を反復するにはどうすればよいですか?

Tesseract API と並行して Python を学習しようとしています。私の最終的な目標は、Tesseract API を使用してドキュメントを読み取り、基本的なエラーチェックを行う方法を学ぶことです。開始するのに適していると思われるいくつかの例を見つけましたが、動作は異なりますが、同等であるように思われる2つのコードの違いを理解するのに苦労しています。これらは両方ともhttps://pypi.python.org/pypi/tesserocrからわずかに変更されました。

最初の例では、次の出力が生成されます。

これは正確で、14 秒で完了します。残りの出力を確認すると、かなり良い結果が得られます。おそらく、99% 以上の精度から SetVariable コマンドをいくつか実行する必要があります。

結果を手動で確認すると、すべてのテキストを取得しているように見えます。

2 番目の例では、この出力が生成されます。

これは精度が低く (単語内に余分なスペースが検出される)、遅くなります (17.5 秒かかります)。

これには大量のテキストがひどく欠けており、なぜ一部が欠けているのかわかりません。

私の最終目標は、ドキュメント内のテキストがどこにあるかを理解することに依存しているため、2 番目の例のような境界ボックスが必要です。私が知る限り、 iterate_level は見つかったテキストの座標を公開していないため、GetComponentImages が必要ですが、出力は同等ではありません。

これらのコードの動作の速度と精度が異なるのはなぜですか? GetComponentImages を GetIterator と一致させることはできますか?

python python-tesseract

2016-12-29T17:45:49.773

0 投票する

1 に答える

79 参照

ocr - Tesseract の闘争は明確な単語を識別します

私は約320dpiの画像を持っています。セクションをトリミングしてグレースケールにし、2 値化 (しきい値) してより明確にしています。これはどのように見えるかです：

識別するのは難しくないはずですが、tesseract はテキストを取得できないようです。私はpsm 6,7,8を試しましたが、どれも解決しません。

tesseract (v3) が機能しないというのは、何が間違っているのでしょうか。

ocr tesseract python-tesseract

2017-01-08T19:50:35.040

1 2 3 4 5 6 7 8 9 10

問題タブ [python-tesseract]

python-3.x - Ubuntu 16.04 で pip3 を使用して「tesserocr」をインストールできない

imagemagick - PDFに変換された画像から署名を抽出する方法

python - Tesseract API を使用して単語を反復するにはどうすればよいですか?

ocr - Tesseract の闘争は明確な単語を識別します

Reference