問題タブ [text-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sorting - テキストの2文字列スクランブルを解決するアプローチ
2 文字の列でスクランブルされたテキストの段落があります。私の課題の目的は、それを解読することです。
列の正しい順序を見つけるための現在のアプローチは、単語の出現回数の基準に従って、各列の最適な位置を再帰的に見つけようとしています。
私が念頭に置いているアルゴリズムのコアの擬似コードは次のようになります。
各列を反復した後、移動する列がなくなると、アルゴリズムは停止します。文章が文字で形成された単語に基づいており、サンプルが十分に大きい限り、どの言語でも機能するはずです(ただし、英語のソリューションにのみ興味があります)。
他のアプローチや改善に関する提案はありますか? この問題の最善の解決策を知りたいです (おそらく、代わりに一般的な単語の出現を探す辞書ベースのものですか? 再帰を避けるためにアルゴリズムを再構築するのはどうですか? はるかに高速でしょうか?)。
android - ABBYY は名刺の機能を認識しますが、写真は失敗します
ABBYY 名刺のテキストを認識すると、機能します。撮った写真でやってみると失敗。ABBYY のデモでは動作するので、私のハードウェアではありません。
これがなぜなのか誰か知っていますか?
写真を撮るために使用するコード:
android - キャンバスに描かれた文字を認識する方法
私は線を描くためにフィンガーペイントを使用しています。これまでのところ、次のコードを思いつきました:
残念ながら、上記のコードは私の要件を満たしていません。ユーザーがタッチで進める、アルファベット順に整理されたワークシートを作成したいと考えています。彼がキャンバスに描いたものを認識するために、彼がどこから始まり、どこに移動し、どこで終了したかを知りたいのですが、どこでタッチポイントを取得するかはわかっていますが、問題はキャンバスに描かれたものをどのように認識するかです。Playstore でこのVisionObjectsアプリ のように認識したいと考えています。
c# - .NET プログラムは、.PDF のチャート内のレンダリング可能なテキストをスキャンします - 単語ではなく値に対して - テキスト位置機能?
こんにちは、システムをレビューして結果を出すために必要なチャートがあります...
ここにあるチャート画像....
サンプルチャート.pdf http://imageshack.us/photo/my-images/651/scorecardchartexample.gif/
http://imageshack.us/photo/my-images/651/scorecardchartexample.gif/
-- グラフが .PDF で、テキストがレンダリング可能な IE "ハイライト可能" であると仮定します。
-- グラフが毎回まったく同じ方法で同じ位置にページに配置されていると仮定します。
-- グラフが変更される可能性があると仮定します。つまり、これらのグラフを 1000 個アップロードできる必要があります。これらはすべてまったく同じ形式ですが、グラフごとに別の情報が含まれています。
-- .NET に関する VAST の専門知識があり、実際のテキスト解釈に関する専門知識はほとんどないと仮定します。
--編集可能なフィールドを持つ.PDFを解釈する専門知識を前提としています...私はすでにこれを行っています.これは私が作成した.PDFに限定されており、各フィールドなどに値を配置することができました.
-- このグラフはレンダリング可能な単一のテキスト .PDF でのみ配信可能であると仮定します。つまり、このグラフを作成する Web サイトと対話します。この Web サイトには対話する API がなく、Web ページからこのグラフを PDF に出力する必要があります。それが私たちにできるすべてです...(政府のウェブサイト)
.NET システムを使用して、プログラムを作成する必要があります... または既存のアプリケーションを .NET システムに組み込むことで、このチャートを確認し、各 "X" が何を表しているかを知ることができます...つまり、 1インチ左または次の行の「X」は、異なる結果の指標です(チャートを参照)
フォルダーなどにヒットした.PDFドキュメントのトリガーに基づいて、検索を実行し、結果を返すプログラムが必要です。この部分は、プログラムをゼロから作成すると仮定して処理できます...そうしないと、必要に応じて既存のアプリとやり取りすることに制限されます。
私たちはさまざまな戦略にオープンです。そのようなクラスまたはオブジェクトが存在すると仮定すると、ドキュメント内の位置に基づいてテキストを読み取ることを考えていました。X、Y のようなものです。別の望ましいルートは、ある種の stringBuffer (C# を想定) ですが、チャートのグリッド線をナビゲートできる必要があり、「X」の位置と「X」の意味を正確に解釈するために空白をカウントする必要があります。その配置に基づいています。3番目のオプション、私たちが気付いていないもの。
何かが存在し、実証済みであれば、もちろんそれが一番です。次に、.NET と C# を使用してインターフェイスするためのヒント。
Code Gawds をよろしくお願いします。
リール
javascript - JavaScriptのテキスト認識とOCR
手書きの数学方程式を認識するWebアプリケーションを見つけました。
http://webdemo.visionobjects.com/equation.html?locale=default
このWebアプリから取得するのは非常に複雑なので、誰かがこのメカニズムを実装するアプリ、チュートリアル、またはオープンソースプロジェクトを知っているかどうかを知りたいです。
注:キャンバスに描画された方程式を入力テキストボックスに変換する必要があります。
android - tesseract または OpenCV を使用した android のオブジェクト検出
tesseract を Android アプリに正常に統合しました。キャプチャした画像は何でも読み取りますが、精度は非常に低くなります。しかし、ほとんどの場合、関心のある領域の周囲のテキストもキャプチャされているため、キャプチャ後に正しいテキストを取得できません。
私が読みたいのは、長方形の端をキャプチャせずに、長方形の領域からのすべてのテキストを正確に読み取ることだけです。私はいくつかの調査を行い、これについて2回stackoverflowに投稿しましたが、それでも満足のいく結果は得られませんでした!
私が作成した2つの投稿は次のとおりです。
tesseract を使用するか、openCV を使用するかはわかりません
xml-parsing - テキスト認識アルゴリズムのパフォーマンスを評価するために DetEval ソフトウェアを実行中にエラーが発生しました
テキスト認識アルゴリズムを思いつきました。このアルゴリズムは、自然画像内のテキストを認識します。ICDAR の堅牢な読み取りチャレンジのデータセットで利用可能なグラウンドトゥルースに対してテストしようとしています。このために、アルゴリズムによって認識される、シーン画像内のテキスト領域の座標を含む xml ファイルを生成しました。Groundtruth データ用に同様の xml ファイルが用意されています。
2 つの xml ファイルを比較して定量的な結果を生成するには、DetEval ソフトウェアを使用する必要があります(サイトに記載されているとおり)。Linuxにコマンドラインバージョンをインストールしました。
問題は、DetEval が入力 xml ファイルを読み取っていないことです。具体的には、
次のコマンドを実行します ( DetEval Web サイトの指示に従って): rocplot /home/ekta/workspace/extract/result_ICDAR_2011/txt/GT2.xml { /home/ekta/workspace/extract/result_ICDAR_2011/txt/final.xml }
ここで、GT2.xml はグラウンドトゥルースで、final.xml は私のアルゴリズムによって生成されたファイルです。
次のエラー メッセージが表示されます 。readdeteval -p 1 - >> /tmp/evaldetectioncurves20130818-21541-1kum9m9-0 evaldetection -p 0.8,0.4,0.8,0.4,0.4,0.8,0,1 "{" "/home/ekta/workspace/extract/result_ICDAR_2011/ txt/GT2.xml"I/O 警告: 外部エンティティ "{" の読み込みに失敗しました ドキュメントを解析できませんでした { -:1: パーサー エラー: ドキュメントが空です ^ -:1: パーサー エラー: 開始タグが必要です、'<'見つかりません ^ I/O エラー: 無効なシーク ドキュメントを解析できませんでした - rocplot:エラーコマンドの実行: evaldetection -p 0.8,0.4,0.8,0.4,0.4,0.8,0,1 "{" "/home/ekta/workspace/extract/result_ICDAR_2011/txt/GT2.xml" | readdeteval -p 1 - >> /tmp/evaldetectioncurves20130818-21541-1kum9m9-0エラー コード: 256
私は何をしますか?Web サイトから取得した Groundtruth ファイルでさえ解析されていないため、xml ファイルの生成にエラーはないと確信しています。助けてください!
よろしくエクタ
python - 画像からテキストを読み取るOCRライブラリ(できればpython)
いくつかの画像からテキストを読み取る必要があります。画像は鮮明でノイズが非常に少ないです。したがって、私の最初の考えは、テキストを取得するのはかなり簡単であるべきだということでした。(私が知っていることはほとんどありません)
私はいくつかのpythonライブラリをテストしましたが、あまり成功しませんでした( pytesser)。おそらく10%正しいでしょう。私はGoogle の tesseract-occに目を向けましたが、まだ良いとは言えません。
以下に一例を示します。
以下は結果です。
私は何を間違っていますか?それとも、OCR認識は本当にこれほど悪いのでしょうか?
python - 初歩的なOCRのためにnumpyで空のリストに列を追加しますか?
テキスト行をシミュレートし、そこから各文字を取得する画像を通過するプログラムを作成しようとしています。ピクセルの 2D 配列のイメージを考えると、連続する列に黒いピクセルが存在する場合、それらの列はバッファーに書き込まれます。黒いピクセルのない列 (文字間のスペース) に到達すると、バッファは検出された文字の画像に変換されます。ただし、理解できないコンパイラ エラーが発生しています。皆さんが私を助けてくれることを願っています。うまくいけば、私が認識していない論理エラーにも気付くでしょう。
とにかく、コード:
私が得るエラーは次のとおりです。
machine-learning - 試験問題の識別 (テキスト認識)
PDF 形式の何千もの試験がありますが、その問題を標準形式 (JSON、YML、または XML) に抽出したいと考えています。
それらは多肢選択式です:
質問1
月面を初めて歩いた人は誰ですか?
a) ユーリ・ガガーリン
b) エレン・リプリー
c) ニール・アームストロング
d) シェパード
質問2
太陽系にはいくつの惑星がありますか?
ア)10
ロ)12
ウ 14
エ) 15
(...)
JSON の場合:
注意点として、これらの試験は異なる教師によって行われたため、若干異なる場合があります。つまり、プレーンテキストに抽出しても、正規表現を使用して一致させることはできません。(私が試したところ、組み合わせ(文言構造/代替構造)は巨大です)
例えば:
「質問X(...)」。
「質問(X)(...)」。
「質問X - (...)」。
"バツ) (...)"。
"バツ- (...)"。
代替案も変更される可能性があります。
(...)
を。(...)
あ- (...)
1) (...)
プログラムに質問を「教え」て見つけさせるには、ある種の機械学習ツールが必要だと思います。
別の方法として、質問 (印刷物) が互いに物理的に離れているため、それらの PDF を画像に変換し、何らかの画像認識を使用できると考えました。
それは実現可能ですか?それらの質問を特定するためのツール (パッケージ、ライブラリ、アルゴリズム) はありますか?