問題タブ [python-tesseract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
133 参照

image-processing - tesseract の設定を正しく取得できません

この画像でtesseractを使用しようとしています:

ここに画像の説明を入力

デフォルト構成を使用する場合:

返します\KD FWOW
ご覧のとおり、唯一の間違いは最初の文字Lがバックスラッシュとして認識されていることです

そこで、次の設定で構成ファイルを作成しました/usr/share/tesseract-ocr/tessdata/configs

tessedit_char_whitelist ABCDEFGHIJKLMNOPQRSTUWXYZ

目標は、特殊文字ではなく文字だけを認識することです。ただし、この構成でtesseractを実行すると:

結果はXKD FVOIVで、主に 'W' が 1 文字以上欠落しています。

これは私には意味がありません。ホワイトリストにあるときに W の認識が停止した理由がわかりません。確かに、設定に何かが欠けています。

どうすれば修正できますか?

0 投票する
1 に答える
1637 参照

python - PythonでTesseract OCRを使用したUnicodeDecodeError 'charmap'コーデック

teseract-OCR を使用して、Python で画像ファイルに対して OCR を実行しようとしています。私の環境は、Windows マシン上の Python 3.5 Anaconda です。

コードは次のとおりです。

私が得ているエラーは次のとおりです。

ここに記載されている解決策を試しました ハックが機能していません

Mac OS でコードを試してみましたが、動作しています。

私はpytesseractの問題を調べました:これは未解決の問題です

ありがとう

0 投票する
1 に答える
2115 参照

python-3.x - Python3 texttract ライブラリで tesseract を使用する

PDFファイルからテキストを抽出したいと思います。tesseract (ターミナルで動作) と textract (この指示に従って) を正常にインストールできました。

ただし、コードを実行すると、エラーが発生しました。

エラーは次のとおりです。

いくつかの変更を試みましたが、機能せず、同じエラーが発生しました。

  1. return b''.join(contents)
  2. contents = [str(item) for item in contents]前に挿入return
  3. contents = [item.decode("utf-8") for item in contents]前に挿入return
0 投票する
0 に答える
140 参照

php - PHP Python で Pytesseract を実行できません

Postmanを使用して base64 イメージを Apache Web サーバーの PHP ファイルに送信しています。画像は常に正常に送信されます。PHP スクリプトは、Python スクリプトを実行して画像からテキストを抽出し (Pytesseract/Tesseract-OCR を使用)、出力を PHP に送り返します。(それが重要な場合は、Windows 10を使用してください)

最初の 2 つの print ステートメントは常に Postman に返されますが、3 番目と 4 番目の print ステートメントは返されません。pytesseract 行がコメントアウトされている場合にのみ、最後の print ステートメントが返されます。

Python スクリプトを単独で実行すると、すべての print ステートメントが正常に返されます。

パイソン (test.py)

PHP (connection.php)

0 投票する
1 に答える
330 参照

php - PHP shell_exec() 経由で Python で Pytesseract を実行できません

Postman を使用して base64 イメージを Apache Web サーバーの PHP ファイルに送信しています。画像は常に正常に送信されます。PHP スクリプトは、Python スクリプトを実行して画像からテキストを抽出し (Pytesseract/Tesseract-OCR を使用)、出力を PHP に送り返します。(それが重要な場合は、Windows 10を使用してください)

最初の 2 つの print ステートメントは常に Postman に返されますが、3 番目と 4 番目の print ステートメントは返されません。pytesseract 行がコメントアウトされている場合にのみ、最後の print ステートメントが返されます。

Python スクリプトを単独で実行すると、すべての print ステートメントが正常に返されます。

パイソン (test.py)

PHP (connection.php)

問題はpythonスクリプトを実行できると思いますが、pythonスクリプトはPHPで実行されたときにtesseractを実行できません。

0 投票する
1 に答える
9150 参照

python - Tesseract と Pyocr を使用して Python でフォント サイズを取得する

またはを使用して画像からフォントサイズを取得することは可能ですpyocrTesseract? 以下は私のコードです。

ここでは、 function を使用して画像からテキストを取得しますimage_to_string。そして今、私の質問は、font-size私のテキストも (数) 取得できるかどうかです。

0 投票する
0 に答える
482 参照

python - tesseract ocrまたはPython用の他のパッケージを使用して、チェックからmicrフォント文字を読み取る方法はありますか?

小切手の文字認識に pytesseract を使用すると、マイクロ文字が正しく認識されません。

0 投票する
1 に答える
7814 参照

python - pytesseract でサンプル コードを実行する

Python 2.6.6 を実行していて、 pytesseractパッケージをインストールしたいと考えています。解凍してインストールしたら、コマンド ラインから pytesseract を呼び出すことができます。ただし、python 内で tesseract を実行したいと考えています。次のコード (ocr.py) があります。

python ocr.py でコードを実行すると、次の出力が得られます。

test.png と test-european.jpg は作業ディレクトリにあります。このコードの実行を手伝ってくれる人はいますか? 私は次のことを試しました:

  1. tesseract_cmd を「pytesseract」に調整しました
  2. インストールされたtesseract-ocr

私は今、この問題を何時間も解決しようとしているので、助けていただければ幸いです。