pdf - OCRはGoogleドライブでどのように機能しますか？

Question

GoogleドライブがPDF（および画像やテキストドキュメントなどの他のファイル）のテキストを認識することに気づきました。好奇心から、選択可能で検索可能なimgタグを表示するために彼らが何をしたのか知りたいです。たとえば、ChromeデベロッパーツールでGoogleドライブのドキュメントを調べると、各ページは画像ですが、テキストが選択可能であるため、画像としては動作しません。一方、ズームインすると、より高解像度の別の画像が読み込まれているように見えます。それはscribdが使っているのと同じトリックだと思います。

また、Googleがtesseract-ocrを改善しており、GoogleブックスチームがGoogleドライブでのOCRの実装を支援したことも読みましたが、その方法でimgタグを生成するプロセスはわかりません。

舞台裏で何が起こっているのですか？

ありがとう！

score 3 · Accepted Answer

正確に何が起こるかはわかりませんが、私の調査結果をお伝えします。ドライブ内のファイルの PDF ビューの HTML コードを調べると、次のようなものが見つかります。

<div id="page-pane" class="">
   <div id=":2h.page.0" class="page-element goog-inline-block" style="width: 820px;">
      <div>
         <div class="highlight-pane"></div>
         <div class="highlight-pane">
            <div class="highlight selection-highlight" style="left: 154px; top: 142px; width: 268px; height: 13px;"></div>
            <div class="highlight selection-highlight" style="left: 105px; top: 164px; width: 73px; height: 14px;"></div>
            <div class="highlight selection-highlight" style="left: 154px; top: 181px; width: 128px; height: 13px;"></div>
         </div>
         <div class="highlight-pane"></div>
         <div class="highlight-pane"></div>
         <img class="page-image" style="width: 800px; height: 1131px; display: none;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&amp;w=138" /><img class="page-image" style="width: 800px;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&amp;w=800" />
         <p id=":2h.a11y.0" class="accessibility-text" tabindex="-1"></p>
      </div>
   </div>

4 つのhighlight-panediv とその中に 1 つの divがありimgます2h.page.0(pdf のページ 0)。div は、imgあなたが話している画像を示しています。これは単なる単純な画像で、OCR はありません。あなたが言及した選択されたテキストはhighlight-pane、画像上でボックスをドラッグすると動的にdivが追加された2番目のものです。秒内の 3 つの divhighlight-paneは、選択されたテキストを表します (これは、選択されたテキストの 3 行に対応します)。

ページにアクセスすると、次のことが起こります。

ドライブに保存されている PDF からページの画像を表示します。
ページで何かを選択します。ドラッグボックスを作成します。
選択すると、pdf で OCR を実行する JavaScript がトリガーされます (OCR 出力は既に計算されている可能性があります)。
OCRの出力は、div内のhighlight-panedivに追加されます

score 0 · Accepted Answer

OCRに使用される基本的な方法は、マトリックスマッチングと特徴抽出の2つです。文字を認識する2つの方法のうち、マトリックスマッチングは、より単純で一般的です。

マトリックスマッチングは、OCRスキャナーが文字として認識するものを文字マトリックスまたはテンプレートのライブラリと比較します。画像が特定の類似性レベル内でこれらの規定されたドットのマトリックスの1つと一致する場合、コンピューターはその画像を対応するASCII文字としてラベル付けします。

特徴抽出は、規定のテンプレートと厳密に一致しないOCRです。インテリジェント文字認識（ICR）またはトポロジカル機能分析とも呼ばれるこの方法は、製造元が適用する「コンピュータインテリジェンス」の量によって異なります。コンピューターは、開いた領域、閉じた形状、対角線、線の交点などの一般的な機能を探します。この方法は、マトリックスマッチングよりもはるかに用途が広いです。マトリックスマッチングは、OCRがタイプスタイルの限られたレパートリーに遭遇し、各スタイル内でほとんどまたはまったく変化がない場合に最適に機能します。文字の予測が難しい場合は、特徴または地形分析が優れています。

詳細については、http ：//www.dataid.com/aboutocr.htmにアクセスしてください。

pdf - OCRはGoogleドライブでどのように機能しますか？

2 に答える 2

Related

Reference