pdf - PDFテーブルの抽出

Question

（同じ）データをGIF画像ファイルとPDFファイルとして保存していて、それをHTMLまたはXMLに解析したいと思います。データは実際には私の大学のカフェテリアのメニューです。これは、毎週解析する必要のあるファイルの新しいバージョンがあることを意味します。一般に、ファイルにはいくつかのヘッダーとフッターのテキスト、およびその間に他のデータでいっぱいのテーブルが含まれています。私はstackoverflowに関するいくつかの投稿を読み、テーブルデータをHTML/XMLとして解析する試みも開始しました。

PDF

PDFBox || iText（Java）
Googleドキュメントのインポート
PDF2HTML || PDF2Table

GIF

Tesseract-OCR

PDFBoxを使用してPDFファイルを解析することで最良の結果が得られましたが、それでも（メニューは毎週変更されるため）、十分な信頼性はありません。私が受け取るHTMLには、「段落」（<p>）が含まれている場合と少ない場合があるため、データの精度を十分に解析できません。

それで、他の方法があるかどうか知りたいのですが？

score 9 · Accepted Answer

traprangePDFファイルの表形式データを解析するために、独自のアルゴリズム（その名前は）を実装しました。

次に、いくつかのサンプル PDF ファイルと結果を示します。

入力ファイル: sample-1.pdf、結果: sample-1.html
入力ファイル: sample-4.pdf、結果: sample-4.html

私のプロジェクトページをtraprangeにアクセスしてください

またはtraprangeの私の記事

score 2 · Accepted Answer

私は多くのOCRおよびテキスト変換ソフトウェアを試しましたが、画像はタスクを実行する人によってよりよく理解されるため、PDFをテキストに自己変換するプログラムを作成する必要があると思います。

また、Googleや他の多くのオンライン（約900のWebサイト）およびオフライン（約1000のソフトウェア）製品をさまざまな会社で使用しようとしました。OCRやPDFからのテキストなどの方法からテキストを抽出したい場合、私が見つけた最も正確なプログラムはPDFTOHTMLです。PDFTOHTMLの正解率は約98％、Google Onlineの正解率は約94％です。これは非常に優れたソフトウェアであり、テキストの正しい形式、つまりテキストの太字、斜体なども提供します。

score 0 · Accepted Answer

テーブルは毎回同じ場所にありますか? 各ボックスの寸法を見つけることができれば、ツールを使用して PDF を複数のドキュメントに分割し、それぞれに 1 つのボックスを含めることができます。その後、任意のツールを使用して、それぞれの小さな PDF を HTML に変換できます (他の回答で言及されているツール）。ランダムな Google 検索でPyPdfが見つかりました。これには、いくつかの便利な機能があるように見えました。

ボックスのサイズをハードコーディングできない場合 (または、問題をさまざまな形式の複数のメニューに適用したい場合)、私にとって明白な方法 (私は明らかだと言いましたが、簡単ではありません) は、エッジ検出を使用して、テーブルの境界線が表示され、前に説明した分割を適用します。

score 0 · Accepted Answer

私は最近、同様の問題に遭遇しました。

私が見つけた別の解決策は、PDF ドキュメントを Adobe で開き、それを xml にエクスポートすることでした。少なくとも私のPDFではテーブル情報が保存されていたので、プログラムでXMLを操作して、Excelなどの表形式のファイルを生成することができました.

私が遭遇したもう 1 つの問題は、Adobe では一度に 1 つのファイルしかエクスポートできず、ファイルがたくさんあるということでした。幸いなことに、アドビにはマージ機能もあります。最終的にすべてのファイルをマージし、それらを 1 つの大きな XML ファイルとしてエクスポートし、そのファイルを操作して必要なものを生成しました。

pdf - PDFテーブルの抽出

8 に答える 8

Related

Reference