問題タブ [ocr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2023 参照

embedded - ARM / Gumstixでtesseract-ocrをコンパイルしますか?

特定のGumstixボードにあるIntelPXA270用にtesseract-ocrをコンパイルすることは可能ですか?誰かがこれを成功させましたか?もしそうなら、どのようにそうしましたか?

0 投票する
2 に答える
660 参照

ocr - OCRはもはや問題ではありませんか?

ウィキペディアによると、「ラテン文字のタイプライターで書かれたテキストの正確な認識は、印刷された文書のスキャンなど、鮮明な画像が利用できるアプリケーションでは、主に解決された問題と見なされています。」ただし、引用はありません。

私の質問は:これは本当ですか?現在の最先端技術は非常に優れているので、英語のテキストを適切にスキャンするために、大きな改善を行う必要はありませんか?

または、この質問の主観的でない形式は次のとおりです。高品質のスキャンのために英語のテキストを認識する際に、最新のOCRシステムはどの程度正確ですか。

0 投票する
2 に答える
811 参照

objective-c - CocoaまたはCarbonを使用して画面上の単語のフレーム(位置とサイズ)を検索する

これが難しいものです:

画面上で単語の位置とサイズ(フレーム)を見つけることができる必要があります(最初の出現で十分です。そこから次の単語を取得できるはずです)。

たとえば、Word、Excel、PowerPoint for Mac、およびSafariなどで単語の位置を検出できるようにしたいと考えています。

解決策は可能な限り高速である必要があります。1秒あたり少なくとも5〜6語を見つけて、CPU時間をできるだけ少なくすることができるはずです。

これが私がこれまでに考えたことです:

  • ウィンドウのスクリーンショット/グラフィックスコンテキストでのOCR(Mac OS X 10.4で動作し、商用製品で使用できる優れたオープンソースフレームワークはありますか?)。Evernoteは、画像内の単語を見つけるのに非常に優れています。カスタムの社内エンジンを使用しているのか、オープンソース/商用エンジンを使用しているのかはわかりませんが、これが「有効な」ソリューションである場合は、それを使用したいと思います。理想的には、アクティブなアプリケーションのウィンドウで単語のフレームを検出します(別のアプリケーションのフレームを取得する方法は?)。
  • クォーツによるテキストの描画に何らかの「フック」をかけ、描画されたときに単語の位置を傍受します(一見するとあまり実現可能ではないようです!)。
  • AppleScriptですが、それはアプリケーションが提供するAPIに大きく依存し(私が見たものからWord文書で単語の座標を取得できるとは思いません)、遅いです。
  • ...アイデアから..。

私の目標は、段落のテキストを含む文字列に基づいて、段落内のすべての単語のフレームを正しい順序で取得することです。

ヒントを事前に感謝します!

0 投票する
7 に答える
7203 参照

image-processing - プロットのデジタル化-グラフの画像からサンプル値をスクレイピング

これは文字を認識しないため、実際には「OCR」ではありませんが、曲線に適用されるのと同じ考え方です。(ラスター)プロット画像から値を取得するための画像処理ライブラリまたは確立されたアルゴリズムを知っている人はいますか?たとえば、このグラフでは、グリッド線の間に次のようなギャップがあるため、目で正確な値を読み取るのは困難です。

代替テキスト

直定規などを使用できますが、それでもエラーが発生しやすくなります。古いグラフのスクリーンショットを撮って、それを値の表または照会できる関数に自動的に変換できるソフトウェアがあれば素晴らしいと思います。

「曲線認識」と呼ばれているようですか?基礎となるデータが公開されていない科学論文の曲線からデータを抽出するためにも使用できます。

そして、人間の指導があっても大丈夫です。たとえば、OCRが「100」を読み取って線と一致させることができなかった理由はありませんが、マシンがグリッド線を基準にした曲線のパスを抽出した後、人間が線に数値を与えることは問題ありません。グリッドが非アフィンな方法で傾斜、回転、またはワープされている場合でも、グリッドを基準にして曲線をトレースする機能に主に関心があります。

アップデート:

リンクに多数のソフトウェアを使用してスキャンしたグラフをデータに変換するというウィキペディアの記事があります。また、alternativeto.net上のいくつかのソフトウェア。ソフトウェアソリューションがhttp://superuser.comに属しているのに対し、理論は現在http://dsp.stackexchange.comに属していると思いますか?

0 投票する
1 に答える
20469 参照

python - PythonOCRライブラリまたは手書き文字認識エンジン

OCRと手書き文字認識用のPythonライブラリまたはソースコードをお勧めしますか?

0 投票する
3 に答える
2157 参照

php - Fuzzy Text Search: Regex Wildcard Search Generator?

I'm wondering if there is some kind of way to do fuzzy string matching in PHP. Looking for a word in a long string, finding a potential match even if its mis-spelled; something that would find it if it was off by one character due to an OCR error.

I was thinking a regex generator might be able to do it. So given an input of "crazy" it would generate this regex:

It would then return all matches for that word or variations of that word.

How to build the generator: I would probably split the search string/word up into an array of characters and build the regex expression doing a foreach the newly created array replacing the key value (the position of the letter in the string) with ".+".

Is this a good way to do fuzzy text search or is there a better way? What about some kind of string comparison that gives me a score based on how close it is? I'm trying to see if some badly converted OCR text contains a word in short.

0 投票する
1 に答える
6072 参照

iphone - iPhone アプリ用モバイル OCR エンジン

OCR エンジンを使用する必要があるアプリを開発しています。この点で最適なものを選択するのを手伝ってください。画像からテキストを抽出する必要があります。

アビーに聞きました。最高ですか?????

他に選択肢があれば提案する

事前にt​​hnx

0 投票する
4 に答える
1420 参照

flash - 中国語手書き認識

手書き認識ソリューションを探しています。ここでフラッシュアプ​​リケーションを見つけました。それがどのように機能するかの原理は何ですか?文字を見つけるためにdbにクエリを実行しますか?

0 投票する
2 に答える
2186 参照

ocr - スキャンしたドキュメント/画像からIDフィールドを確実に抽出しますか?

スキャン後に自動的にルーティングできるように、紙のフォームから2つの事前に印刷された(手書きではない)フィールドを引き出す必要があります。フィールドには、「GG-9192」や「EPN/245G」などのバッチおよびアイテム識別子が含まれます。

私は次のソフトウェアを試しました:

  • Tesseract-OCR
  • 楔形文字
  • CanonImageRunner組み込みOCR
  • Asprise OCR Java API(デモ)

次の設定を試しました。

  • 300dpiおよび600dpiの解像度でスキャン
  • OCR-AやOCR-Bなどのさまざまなフォントを試しました。

すべての場合において、出力はほとんどいたるところにありました。必要な情報を適切に抽出できないドキュメントをキックバックすることはできますが、少なくとも半分になると思います。データベース内の既知の値に基づいて、ある種のファジーロジックを検討しましたが、これらの識別子は、「123G」や「123C」のように1文字だけ異なる場合があります。

これは失われた原因ですか? おそらく、OCRは、この性質の要件を処理するのに十分成熟していないのでしょうか。他にどのようなテクニックをお勧めしますか?バーコード?

編集:含まれているアプリケーションはJavaであるため、無料または安価なJavaベースのAPIがある推奨事項が役立ちます。

編集2:誰かが興味を持っている場合...特別な調整なしで、Linux用の楔形文字とCanon ImageRunnerが最もよく機能し、Tesserect-OCRとAspriseJavaAPIが最悪の結果をもたらしました...4つのうちどれも標準以外には受け入れられませんでしたドキュメント検索グレードのOCR。これはうまくいかないと思い始めています。