問題タブ [text-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python 機械学習に関するちょっとしたアドバイスを探しています
Python と機械学習/自動データ入力に興味があります。しかし、研究が進むにつれて、それぞれに独自の強みを持つ非常に多くの異なる手法があることに気付きました。
反対の方向に学べば、さらに上達できると判断しました。つまり、問題/タスクを選び、それを解決/完了することで学習します。
FAX で送信された請求書をデータ処理する必要がある場合があります。スキャンしてから入力できるプログラムを作成したいと考えています。
ファックスは、基本的に 2 つの同一のテーブルで構成されています。各行は個別のワーカーを表します。1 列目は労働者の名前 (6 つから選択) です。2 列目は住所で、残りの列はチェック ボックスで、さまざまなジョブを示します。ページ上部のボックスに請求書 ID もあります。
誰かがこれをどのように行うかを簡単に説明してくれることを願っています。テキスト認識やその他の技術に SVM を使用する場合は? また、5 番目のボックスの目盛りが「cleaned=yes」を意味し、左上のボックスの数字が ID であることをプログラムに理解させるにはどうすればよいでしょうか。私は少し調査を行いましたが、開始方法について頭を悩ませることができません。ファックス/スキャンのために絶対的な配置/サイズを保証できない場合、ページの残りの部分から上部のテーブルとそのセルなど、ファックスの一部を分離することはどのように可能ですか. それとも、何百ものファックスとこれらのファックスのタイプアップされたデータを取得し、それらを比較してから、ファックス a と b の違いをゆっくりと学習させる必要がありますか?
どんなアドバイスでも大歓迎です!
r - テキストマイニングPDFファイル/単語頻度の問題
豊富な pdf エンコーディングとグラフを使用して、記事の pdf をマイニングしようとしています。いくつかのPDFドキュメントをマイニングすると、高頻度の単語がphi、taeoe、toe、sigma、gammaなどになることに気付きました。一部のpdfドキュメントではうまく機能しますが、他のランダムなギリシャ文字を取得します。これは文字エンコーディングの問題ですか?(ちなみに、すべてのドキュメントは英語です)。助言がありますか?
image-processing - 「シークできませんでした!」というメッセージが表示されます。jTessBoxEditor で tiff ファイルを開くと
jTessBoxEditor に問題があります。画像からボックス ファイルを生成できますが、ボックス ファイルを変更するために画像を開こうとすると、jTessBoxEditor から「シークできませんでした」というエラーが表示されました。LinuxとWindowsの両方でこれを試しましたが、同じ結果が得られました...
jTessBoxEditor で画像を開いてファイルを変更するにはどうすればよいですか?
ありがとう。
java - Tesseract で認識結果が得られない (Android スタジオ; Java)
tesseract OCR を使用して Android Studio でアプリを作成しています。電話のカメラで撮影した画像のテキストを認識するコードを作成しました。問題: tesseract 関数 getUTF8Text() はまったく結果を返しません (画像にテキストが含まれているにもかかわらず、null)。プログラムはエラーを出しません。
考えられる問題について疑問に思いました: 1. tesseract をプロジェクトに適切に統合しなかったのでしょうか? (コードで tesseract クラスを使用する場合、コンパイラは問題を表示しません) 2. コードに問題があるのでしょうか? (訓練されたデータパスが悪い??)。
メインクラス: コード:
tesseract トレーニング済みデータ ファイルの検索または追加、およびテキスト認識用の TessOCR クラス (コンストラクターはトレーニング済みデータ ファイルの検索専用です):
- この問題の原因が tesseract の不適切な統合である場合は、統合方法に関する適切なチュートリアルを投稿してください。インターネット上のすべてのチュートリアルは互いに異なっており、適切に統合する方法を理解するのは難しいためです。
image-processing - 写真のテキストの視認性を向上させるフィルターをアドバイスする
写真にはノイズが含まれているため、写真のテキストの視認性を向上させるフィルターが必要です。この目的のために知っているフィルター (アルゴリズム) はどれですか?
今、モノクロフィルターを使っていますが、画質は良くなりません。小さな領域の中程度の背景を判断し、中程度の背景に応じて画像をモノクロにすることができるフィルタリングが必要です。
たとえば、ほとんどの画像の背景は白とグレーの文字ですが、一部の領域ではより暗い色 (グレー) と黒の文字が使用されています。画像の一部の領域がより暗くなり、黒の受け入れレベルが低くなることをアルゴリズムが理解できる必要があります。
android - AndroidでのTesseractの最大認識時間
Android の tesseract 認識時間に問題があります。テキストの認識に時間がかかりすぎています。iosでは のようにtesseractに最大認識時間を与える機能がありますtesseract.maximumRecognitionTime = 60.0
。iOSのようなAndroidでtesseractに最大認識時間を与える方法はありますか?(私はtess twoライブラリhttps://github.com/rmtheis/tess-twoを使用しています)