問題タブ [tess4j]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java : カラー画像をモノクロに変換し、テキストを読みやすくする
tesseract OCR
特定の画像からテキストを抽出するために使用する予定のプロジェクトに取り組んでいます。私がモノクロ画像を提供する場合、Tesseract には大きな問題はありません。
ただし、カラー画像はまったく別のシナリオです。私はそれからほとんど文字化けしたテキストを取得します。そこで、画像をモノクロに変換してからTesseractに渡すことを考えました。残念ながら、私の改宗の努力は満足のいく結果をもたらしませんでした。
画像はモノクロに変換されているのですが、文字が何だかおかしくなっています(適切な言葉が思い浮かびません)。テキストを正しく読むことができなかったのに、プログラムにどのように期待できますか?
したがって、私が直面している主な問題は、テキストがねじ込まれていないJavaでカラー画像をモノクロに変換するにはどうすればよいかということです(再び)。
私たちのプロジェクトは Linux サーバー上で実行されるため、スクリプトやその他のプログラムがあれば、Java から呼び出して結果を取得することもできます。しかし、私はJavaの方が好きです。
これが私が持っているコードです:
両方の画像:
変換後の画像 :
上記のTesseractから返されたものは次のとおりです。
それで、色付きの画像を即興で読む方法についての提案。ありがとうございました。
java - Tess4j api が pdf ファイルを正確に読み取っていない
Javaでtess4jを使用してpdfファイルを読み込もうとしていますが、完全に機能していますが、残念ながら私のpdfでは、すべてがテーブル形式であり、tess4jは次の2行を除いてすべての行を読み取っています通貨ZARと金額4.00、わかりません理由は何ですか。以下は、CURRENCY および AMOUNT 行が欠落しているテーブルです。
値の日付 (DDMMYY) 21-Dec-14
通貨 ZAR
金額 1.88
発注機関 NEDBANK LIMITED NEDSZAJJ
仲介HSBC 銀行
HSBCBB22
コメント
この問題を解決するのを手伝ってくれませんか
サンプル PDF はMT210_changed_123.pdfにあります。
java - Tess4Jでユーロ記号を含む画像でOCRを実行するには?
OCRしたい次の画像があります。
私はこれにTess4Jを使用しており、これらの指示に従いました。
これは私がしようとしているものです:
これを IntelliJ で実行すると、コンソールは次のように返します。
これを修正するにはどうすればよいですか?
アップデート:
下の画像をOCRするとうまくいきます
ユーロ記号が原因である必要があります。ホワイトリストに追加しようとしましたが、成功しませんでした
java - テスト プロジェクト (tess4j) tesseract アプリケーションをビルドできません
tess4j テスト アプリケーションをhttp://tess4j.sourceforge.net/tutorial/として構成しました。
しかし、プロジェクトを実行すると、次のエラーが発生します。
tesseract に関連するコメントが見つかりません。このプロジェクトで誰かがやったことがあれば、助けてください。
これは私が使用しているサンプルコードです: