問題タブ [ocr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1051 参照

javascript - Webから画像を読み取って操作するためのクライアント側スクリプト(詳細...)

ページから画像を取得し、それをスキャンして最も暗いピクセルを探し、それらの座標をブラウザに返すことができるGreasemonkeyスクリプトを使用できるようにしたいと思います。

もともと、私はフラッシュスクリプトを使用していました... Greasemonkeyは、ウェブページのソースのURLに基​​づいて画像をフェッチし、ActionScriptを使用して最も暗いピクセルを取得し、それらの座標を使用してPOSTリクエストを送信するローカルフラッシュファイルを埋め込みました。値。

問題は、画像を1回だけダウンロードしたいということです。この方法では、2回実行します(ブラウザーで1回、フラッシュで1回)。Javascript内または別のクライアント側言語を使用してWebページから画像を操作する方法はありますか?Canvasを使用してみましたが、リモートサーバーでホストされている画像に対してgetImageData()関数を実行できません。

0 投票する
2 に答える
371 参照

ocr - How does Google Books find text regions?

One challenging topic in computer vision is processing document scans. Typically this involves a number of steps, like noise removal, color analysis, binarization, text block identification, OCR, and then maybe some context analysis and correction.

I'm curious if anyone understands, knows or can point me to literature on how Google identifies text blocks prior to the OCR stage. Any insights?

0 投票する
14 に答える
74076 参照

security - reCaptcha は、クラック / ハッキング / OCR された / 敗北した / 壊れたことがありますか?

reCAPTCHA を無効にするために使用されたプログラミング方法はありますか?

特に reCAPTCHA が完全に自動化された人間のいない方法によって時代遅れになったという証拠と潜在的な実証に興味があります。

明確にするために、チームが CAPCHA の入力を担当したか、ポルノを探す人か、または Mechanical Turk かを問わず、何らかの方法で人間が関与する reCAPTCHA チート ソリューションを探しているわけではありません。

また、動物の種類、背景フィールド、または JavaScript のトリックを選択するなど、reCAPTCHA の代替手段も探していません。

0 投票する
5 に答える
5365 参照

c++ - 画像認識用の C++ ライブラリ: 文字列への単語を含む画像

特定のフォントやフォントの高さに基づいて文字を見つけることができるように、画像を取得して画像認識を実行するための c++ ライブラリを知っている人はいますか? フォントを選択できないものでもいいでしょう (例: readLetters(Image image))。

0 投票する
3 に答える
2407 参照

java - コマンドラインからの呼び出しと JNI からの呼び出し

Java アプリケーション サーバーから tesseract OCR (光学式文字認識を行う C++ のオープン ソース ライブラリ) を呼び出す必要があります。現在、Runtime.exec() を使用して実行可能ファイルを実行するのは簡単です。基本的なロジックは

  1. 現在メモリに保持されているイメージをファイル (.tif) に保存します。
  2. イメージ ファイル名を tesseract コマンド ライン プログラムに渡します。
  3. FileReader を使用して Java から出力テキスト ファイルを読み込みます。

Tesseract 用の JNI ラッパーを作成することで、パフォーマンスがどの程度向上する可能性がありますか? 残念ながら、Linux で動作するオープン ソースの JNI ラッパーはありません。私は自分でそれをしなければならず、その利益が開発コストに見合うかどうか疑問に思っています.

0 投票する
6 に答える
4177 参照

c++ - C++用の画像処理ライブラリ

画像内のオブジェクトを検出できる(エッジ検出を使用する)ライブラリが必要です。これはキャプチャとは関係ありません。私は、OCRを使用し、任意の画面解像度で動作するMTGOボットに取り組んでいます。それを任意の画面解像度に移植するために、私の考えは、結果ページの狭い範囲をスキャンして(プレーヤーが持っているカードをテキストの行にリストすることができます)、その範囲内の各オブジェクトを見つけることです。次に、各オブジェクトの最低ピクセル座標と最高ピクセル座標を取得して、行の開始位置と終了位置(y軸上)を見つけ、OCRを使用して各行を読み取ることができるようにします。

0 投票する
4 に答える
3600 参照

windows - 画面からテキストを取得する方法

画面からテキストを取得できる Win OS API 呼び出しなどがあります。

スナップショットを取得して OCR を実行するのではなく、API を介して

アイデアは、ユーザーがポイントしてクリックしたマウスの下にあるテキストを取得することです。

これは、Babylon ( http://www.babylon.com ) や 1-Click Answers ( http://www.answers.com/main/download_answers_win.jsp ) などのツールやその他多くのツールが機能する方法です。

誰かがこの機能を得るために正しい方向に私を向けることができますか?

0 投票する
3 に答える
1597 参照

forms - スキャンした文書画像の空白フィールドを見つける方法

アプリケーションで、モノクロ イメージ ファイルとして存在するフォームの 1 つのフィールドに入力する必要があります。フォームは常に同じ紙のバージョンとして開始されますが、アプリケーションがユーザーからフォームを取得するまでに、複数回スキャンまたはファックス送信されている可能性があります。そのため、必要なフィールドがすべてのファイルで同じ場所にあるわけではありません。

ユーザーが常に空白のフォームを受け取るとは限らないため、後で認識できるマークやプレースホルダーを印刷する機能がありません。

元の空白のフォームにテキストがありますが、FAX 送信された可能性があるため、解像度は 200 dpi しかありません。テキストは常に人間が読むのに十分な大きさですが、OCR については懐疑的です。

予算はいくらかあるので、無料のソリューションは必要ありません... $2000 としましょう。

とは言え、検討中です

  1. 必要なフィールドのテキスト ラベルを見つけるための OCR ソリューションを入手してください。私は自分自身をロールバックするためのリソースや専門知識を持っているとは思いません. テキストの内容はすでに知っているので、完全な認識は必要ありません。ただし、X 座標と Y 座標を知る必要があります。これを行うソフトウェアはありますか?それとも、プログラミングは思ったより簡単ですか?

  2. フォームのエッジを認識するソフトウェアを作成または購入します。そこから、必要なフィールドの相対位置を取得できました。スキャナー ソフトウェアが小さな文書の画像の周りに配置する破線について考えています。それは既知のアルゴリズムですか、それとも利用可能な解決策はありますか?

  3. 必要なフィールドを認識する他の方法。フォーム入力ソフトウェアをグーグルで検索しようとすると、何百もの Web フォーム、PDF フォームなどの一致が得られます。

私は言葉にうるさいわけではありません。私のアプリケーションは Linux で実行されますが、最適なソリューションが Microsoft である場合、おそらくそれを機能させることができます。

よろしくお願いします。