問題タブ [python-tesseract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-imaging-library - 画像からの Python OCR テキスト
スキャンしたパスポート画像からデータを抽出したい。
画像操作プロセスに PIL を使用し、画像をテキストに変換するために pytesseract を使用しています。
私の問題は、必要なものが得られないことです..Sの代わりに5が得られます..そして、このようなことです。
問題は pytesseract ではなく、 PIL にあると思います。画像をうまくフィルタリングしていないからです。
誰かが画像から黒いピクセルだけを抽出するのを手伝ってくれますか?
または、最良の結果を得るためにどのフィッターを使用できるかについて、誰かがアドバイスを手伝ってくれませんか. ありがとうございました!私はこれを試していました:
python - OSError: [Errno 2] No such file or directory using pytesser
これは私の問題です。pytesser を使用して画像の内容を取得したいと考えています。私のオペレーティング システムは Mac OS 10.11 で、PIL、pytesser、tesseract-ocr エンジン、および libpng などのその他のサポート ライブラリを既にインストールしています。しかし、以下のようにコードを実行すると、エラーが発生します。
次はエラーメッセージ
さらに、tesseract-ocr エンジンは私の Mac でうまく動作し、ターミナルで実行して結果を得ることができます。以下はテスト写真の結果です。 テセラクトの結果
誰でもこの質問を手伝ってもらえますか?
python - Spark を使用した Python スクリプトでのメモリリーク
OCR タスクで初めて Spark を使い始めたところです。スキャンしたテキスト ドキュメントを含む PDF ファイルのフォルダーがあり、それをプレーン テキストに変換したいと考えています。最初に、フォルダー内のすべての pdf の並列化されたデータセットを作成し、Map 操作を実行して画像を作成します。このタスクには Wand イメージを使用します。最後に foreach を使用して、Tesseract のラッパーである pytesseract を使用して OCR を実行します。
このアプローチの問題は、新しいドキュメントごとにメモリ使用量が増加し、最終的に「OSはメモリを割り当てられません」というエラーが発生することです。完全な Img オブジェクトがメモリに保存されているように感じますが、必要なのは一時ファイルの場所のリストだけです。いくつかのPDFファイルでこれを実行すると動作しますが、5つ以上のファイルではシステムがクラッシュします...
8GBメモリのJava 7およびPython3.5でUbuntuを使用しています
python - Ubuntu 15.x への python-tesseract のインストール
python-tesseract
Ubuntu システムへのインストールに問題があります。
14.04 以降の 32 ビットの Ubuntu システムのいくつかのバージョンで試しましたが、何も得られませんでした。ダウンロードpython-tesseract_0.9-0.5ubuntu2_i386.deb
してインストールしようとしましたが、依存関係の問題が発生し、必要なパッケージをインストールした後も、これらの問題は解消されません。
Ubuntu 14.04または15.10に python-tesseract をインストールするにはどうすればよいですか? ありがとう
編集: Python で光学式文字認識アプリケーションを開発しています。tesseract が提供する多くの機能にアクセスする必要がありますTessBaseAPI
。Python用のtesseractのラッパーをいくつか見つけましたが、python-tesseract
(pytesseractと同じではないことを理解しています)少数だけでなく、すべての機能へのアクセスを許可する唯一のものです。ファイルをダウンロードしましたpython-tesseract.deb
が、上記の問題が発生します。
python - Ubuntu での Python-tesseract のインストール
Ubuntu 15.04 の deb ファイルから python-tesseract 0.9-0.5 をインストールしようとしていますが、いくつかのエラーが発生します。これが私がすることです:
1-端末でファイルのパスを開き、書き込みます
2- この後、コンソールにいくつかのエラーが表示されます。
3- 確認のため、インストール ファイルを開いて tesseract.py クラスを抽出し、Python で単独で使用しました。私はこの方法でそれを開きました:
、しかし、私はこれを得ました:
問題は、Pythonで光学式文字認識アプリケーションにtesseract関数を使用したいということです。これに最適なラッパーはpython-tesseractであることを理解しています(pytesseractとは異なります)。
私の質問は、Ubuntu 15.04 に python-tesseract をインストールするにはどうすればよいですか? どうもありがとう
python - PythonがTesseractコマンドを見つけられない
自作で Tesseract をインストールしましたが、コマンド ラインでは問題なく動作します。例:
しかし、texttract や pytesseract のような python tesseract ラッパーと組み合わせて使用しようとすると、次のエラーが発生します。
私が試したとき:
エラーが発生します:
brew info tesseract は以下を返します: