“python-tesseract”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

4042 参照

python - 「Tesseract Open Source OCR Engine v3.02 with Leptonica」メッセージを削除する方法

pytesser (python 用の tesseract-ocr を備えた画像処理ライブラリ) を使用して実行すると:

その結果text、と tesseract から次の行を取得します。

image_to_string関数が実行されると、この行が実行されると思います。

これは、コンソールに表示される出力を実際に詰まらせます。そして本当に迷惑です。誰かがそれを取り除く方法を知っていますか? 多分pythonの行か何か？

2014-07-24T17:51:52.197

0 投票する

1 に答える

4555 参照

python - pytesseract が 1 桁を認識しないのはなぜですか?

私はサイト、特にこれらの2つの画像でocrを実行しています:

私はOCRにかなり慣れていないので、次を使用します。

2 番目の画像では、1 桁の 3、4、5、6 を除くすべてを認識します。

最初の画像では、1 桁も認識されません。

サイズを変更し、反転し、しきい値を使用して、画像を前処理します。

これは標準的なフォントなので、これを行う他の方法があることは知っていますが、ある程度まではうまくいくので、より高度なものに行く前にシンプルに保ちたいと思います.

python ocr tesseract python-tesseract

2014-09-28T23:16:01.403

0 投票する

1 に答える

43858 参照

ocr - Windowsコマンドラインでtesseract ocrをテストできますか?

私はtesseract OCRが初めてです。画像を tif に変換して実行し、Windows で cmd を使用して tesseract からの出力を確認しようとしましたが、できませんでした。手伝って頂けますか？使用するコマンドは何ですか？

ここに私のサンプル画像があります:

ここに画像の説明を入力

ocr tesseract python-tesseract

2014-10-08T07:42:03.627

0 投票する

1 に答える

899 参照

python - python tesseractはOCRなしで行数を取得します

OCR を実行せずにテキストの行数を特定しようとしています。OCR をバイパスして、処理するテキスト行が多すぎる場合にユーザーにエラーを表示したい (時間がかかりすぎて、与えられるべき入力の種類ではありません)。理想的には、Python でこれを行う手助けをしたいと思いますが、これを行う C++ の例があれば、それらを適応させることができるかもしれません。

私が使用できる API 関数は次のとおりです。

これらの関数は使用できますが、ある API 呼び出しから別の API 呼び出しにフィードする以外に、Python で BLOCK_LIST、ETEXT_DESC、または Boxa オブジェクトを処理する方法がわかりません。

どんな助けでも大歓迎です！

python c++ocr tesseract python-tesseract

2014-11-18T04:33:25.687

0 投票する

0 に答える

758 参照

tesseract - Tesseract に何らかの回答を強制する

手書きの数字の 1 行を認識しようとしています。現在、私はPythonとOpenCVでいくつかの前処理を行い、画像を接続されたコンポーネントに分割し、これらのコンポーネントをPSM = 10（ページセグメンテーションモード、10は「画像を1文字のように扱う」）でTesseractにフィードし、文字のホワイトリストは「0123456789に制限されています"。接続コンポーネントのセグメンテーションが失敗した場合は Tesseract がガベージを返し、セグメンテーションが成功した場合は正確に 1 桁を返すことを期待しています。多くの場合、Tesseract は何も返しません。

Python の Tesseract インターフェイスとしてpytesseractとpython-tesseract の両方を試しました。Pytesseract は、実行可能ファイルを見つけtesseract.exe、シェルから適切なパラメーターを指定して実行し、回答を収集することで機能します。これが私が自分の問題を知った方法です。その後、本格的な C API を実装した python-tesseract を試してみました。当然、結果は同じでした。

以下は、Tesseract に個別にフィードした 5 つの画像のサンプルです (同じ画像を別のファイルとしてここにアップロードしました)。

画像サンプル

これらの画像で 1,*,4,*,* を取得しました。これは * Tesseract が空白のみを返したことを意味します。

他のページセグメンテーションモードでは、次のようになります。

奇妙なことに、これらの画像に対して実行するtesseract image.png image -l eng -psm 10 digits-onlyと、*,*,4,9,* が返されます。(digits-onlyはtessedit_char_whitelist 0123456789)

Tesseract に何も答えさせずに、何らかの答えを与えるにはどうすればよいですか?

tesseract python-tesseract

2014-12-05T17:32:56.513

0 投票する

0 に答える

646 参照

python - 些細な入力画像で Tesseract が失敗する。セグメンテーションエラー

Tesseract を使用して Flask に単純な OCR Web API を実装するためのチュートリアルを書いています。これはこれまでのところ素晴らしいことが証明されていますが、現在、奇妙な問題に直面しています。

これが私たちが見ているものです：

(Pdb) ENGINE.process_image(image) *** TesseractError: (-11, 'index >= 0 && index < size_used_:Error:Assert failed:in file ../ccutil/genericvector.h, line 512')

さて、私はすでに次のことを試しました。インストールの単純な問題だと思います...

tesseract -v を実行すると、次のようになります。

``` (codys_app)bobby@devbox:~/ocr/flask_server$ tesseract -v tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.2.50 : libtiff 4.0.3 : zlib 1.2.8

```

アンインストールしてapt-get経由で再インストールし、ソースから再構築しようとしました。運がなかった。

私のTESSDATA環境変数はTESSDATA_PREFIX=/usr/local/share/

何か案は？これまでのセットアップとビルドで行った正確な手順と完全なソースコードを含む投稿は、 https://github.com/rhgraysonii/ocr_tutorialから入手できます。

どんな助けでも大歓迎です。ここでの目標は、他の人が OCR を使用できるようにすることですが、残念ながら正しく動作させることができていません。

乾杯！そして、助けてくれてありがとう

python image-processing tesseract python-tesseract

2015-01-04T17:51:08.833

0 投票する

1 に答える

898 参照

linux - Python3x の Tesseract-OCR モジュールのインストールエラー

python-3.4でtesseract-ocr libを使いたいです。「sudo apt-get install tesseract-ocr」でtesseractをダウンロードし、コマンドラインで使用できるようになりました。しかし、私はpython3でそれを使いたいです。しかし、python3x でネイティブ tesseract を使用するためのチュートリアルが見つかりませんでした。

実際に私は pytesseract のようなラッパーを使用しようとしました。https://code.google.com/p/python-tesseract/wiki/Python3Tesseractからダウンロードし、dpkg でインストールします。インポートしようとしましたが、奇妙なエラーが発生します。

エラーメッセージは次のとおりです。
「ImportError: /usr/lib/python3/dist-packages/_tesseract.cpython-34m-x86_64-linux-gnu.so: 未定義のシンボル: _Z11GetUTF8TextPN9tesseract11TessBaseAPIE」

python3x用のtesserPyラッパーを試しました。トルコ語、英語ではうまく機能していますが、アラビア語では機能していません。(これらの言語だけで tesserpy をテストしました。) そのアドレスから tesserpy を取得できます。 https://github.com/blindsightcorp/tesserpy

アラビア語でtesserpyを実行している間のエラーメッセージは次のとおりです。

tessdata_manager.SeekToStart(TESSDATA_INTTEMP): エラー: アサートに失敗しました: ファイル adaptmatch.cpp の 511 行目

以前にこの種のエラーメッセージを見た人はいますか?

前もって感謝します

linux python-3.x ocr python-tesseract

2015-01-23T14:09:19.657

0 投票する

2 に答える

1656 参照

tesseract - Tesseract OCR が全高の数字を認識できませんでした

英数字と数字のみのサンプルテキストでテストしました。数字モードを使用しています。

次の画像のように数字を認識する方法は次のとおりです。

ここに画像の説明を入力

全高のせいだと思います。また、いくつかのオンラインツール (コードではない) を使用して、.jpg に変換しようとしました。

私はpytesseract 0.1.6を使用していますが、これはTesseractの問題だと思います。

これが私のコードです：

tesseract python-tesseract

2015-04-03T23:24:33.113

問題タブ [python-tesseract]

Reference