問題タブ [python-tesseract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pytesseract.TesseractError: (-5、'dyld: ライブラリがロードされていません: 理由: 画像が見つかりません)
Pytesseract で image_to_string() 関数を使用すると、次のエラーが発生します。
Tesseract (view Brew)、PyTesseract、PIL を再インストールしようとしましたが、うまくいきませんでした。私がテストした他のマシンでは問題はありませんでした。すべて OSX Yosemite 10.10.3 です。
困惑した。
cygwin - Tesseract 3.03 コンパイル エラー: 'select' はこのスコープで宣言されていませんでした
Tesseract 3.03 ソース コードcygwin
のコンパイルに使用しています。
make
の後に実行すると、次のエラーが発生しますconfigure
。Tesseract のソース コードを変更する知識はありません。以前にこのエラーを見た人はいますか? または、Tessearct 3.03 のビルド済みバージョンはありますか? このバージョンにはトレーニング ツールが含まれておりtext2image
、make training
.
追加 1
以下は、問題のあるコード スニペットです。
select
関数はC++ライブラリ関数のようです。私のCygwinのインストールにいくつかのライブラリが欠けているのかもしれません。しかし、どちらかわかりません。
追加 2
rubenvb
このスレッドに関する次の提案: MinGW /MSYS で "xz-5.2.1" を作成中にエラーが発生しました
私MSYS2 + MinGW-w64
はコンパイルするために使い始めますTesseract 3.03
。すべての依存関係と前提条件と戦った後。私はついに成功しましconfigure
たTesseract 3.03 source
。中に次のエラーが発生しましたmake
:
同様のスレッドを見つけました:致命的なエラー: strtok_r.h: そのようなファイルまたはディレクトリはありません (MinGW で tesseract-ocr-3.01 をコンパイルしている間)
いくつかのファイルを tesseract ソースに手動で追加する必要があるようです。しかし、私はそれをどこに置くべきかわかりません。
今のところ、私は少し眠る必要があります。
誰かがこの問題に光を当ててくれることを願っています。明日も続きます…
参照
vs2013でTesseract 3.03をコンパイルする
http://vorba.ch/2014/tesseract-3.03-vs2013.html
Cygwin で Tesseract 3.02 をコンパイルする
fonts - 「ラスター フォント」用のトゥルー タイプ フォント ファイルはありますか?
Tesseract
いくつかのスクリーンショットの OCR を使用しています。スクリーンショットの文字はraster fonts
. ただし、トレーニングにはファイルTesseract
が必要です。True Type Font
フォルダーには多くの True Type フォント ファイルがありWindows/Fonts
ます。ラスターフォント用のものがあるかどうか疑問に思っていますか?
python - mod_wsgiで使用するとpytesseractエラーが発生する
複数の場所から処理する画像を送信できるように、OCR Web サービスをセットアップしようとしています。
私は cgi で何もしたことがないので、mod_wsgi を試す時が来たと言いました。すべてのライブラリとopencvとpytesseractをインストールするのに、2日ほどかかりました。「通常の方法」(新しいpythonウィンドウインタープリターを開始)で実行すると、OCRは正常に機能します。一部のライブラリが正常に動作しているにもかかわらず、mod_wsgi で動作させるのに多くの問題がありました。
私はpytessearchで立ち往生しました。私がそれを実行すると:
すべての作品ファイル。
私がこのようにしても:
これも同様に機能します。
mod_wsgi を使用してこれを行うと、httpd ログファイルに次のエラーが記録されます。
ここに私のapp.wsgiファイルがあります:
ソースでわかるように、サブプロセスからの check_output を使用して、新しい pytesseract プロセスを自分で開始しようとしましたが、同じエラーが発生します。
ソースから tesseract と mod_wsgi をビルドしました。しかし、これもまた mod_wsgi と何か関係があると確信しています。なぜなら、私が Python で通常どおり実行すると機能するからです。
更新: mod_wsgi と opencv で同様の「奇妙な」問題が発生しました。質問と回答はここにあります: mod_wsgi django アプリから numpy をインポートするときの ctypes エラー
任意の提案をいただければ幸いです。
ocr - Ubuntu に tesseract_ocr を正常にインストールした後、tesseract_ocr という名前のモジュールが表示されません。
Linux ターミナルから Tesseract OCR をインストールしましたが、Python にインポートしようとすると、次のエラーが表示されました。
/usr/bin/python2.7 /home/web/Documents/pnt/ocr.py
トレースバック (最新の呼び出しが最後):
ファイル "/home/web/Documents/pnt/ocr.py"、1 行目、
インポート tesseract 内
ImportError: tesseract という名前のモジュールがありません
python - リモート PDF のページを OCR 用の一時画像に変換する
ページごとに読み取り、OCRテキストを提供するOCRにそれぞれを渡し続ける必要があるリモートPDFファイルがあります。
cStringIO
orを使用することを考えtempfile
ましたが、この目的でそれらを使用する方法がわかりません。
この問題をどのように解決できますか?
python - Windows で Python OCR を使い始めますか?
これまで Python を使用したことがなく、どこから始めればよいかわかりません。私の目標は、数字と多色の背景の画像データを取得し、正しい文字を確実に識別できるようにすることです。これに必要なツールを調べたところ、tesseract-ocr と pytesser だけでなく、必要になる可能性のあるすべてのパッケージが含まれている Anaconda Python ディストリビューションを見つけました。
残念ながら、私は始め方に迷っています。私は PyCharm Community IDE を使用しており 、OCR を把握するためにhttp://www.manejandodatos.es/2014/11/ocr-python-easy/のガイドに従っているだけです。
これは私が使用しているコードです:
私が使用しているAnacondaディストリビューションにはPILがあると思いますが、次のエラーが発生しています:
誰かが私を正しい方向に向けることができますか?
image-processing - MTGカードでtesseractを使用する
これまでの私の最初のハードルは、MTG カードの画像で tesseract バニラを実行するとカードのタイトルが認識されないことです (正直なところ、そのテキストを使用して残りのカード情報をデータベースから引き出すことができるので、必要なのはそれだけです) MTGカードで使用されているフォントを認識するためにtesseractをトレーニングする必要があるかもしれませんが、画像のセクション(特にタイトル)でtesseractがテキストを見ていない、または検出していないという問題があるのではないかと思っています。
編集: 参照用に MTG カードの画像を含めます。http://gatherer.wizards.com/Handlers/Image.ashx?multiverseid=175263&type=card