c# - 構造化された形式で表形式のデータを取得するためにPDFファイルを読み取る、

Question

複数の列を持つテーブルを含むPDFファイルを読み取る必要があります。iTextSharpを使用すると、ファイルを読み取ることができますが、フォーマットされていないテキストが大量に表示されます。データベースに挿入できるようにデータを構造化できません。

助言がありますか？

score 1 · Accepted Answer

構造化テキストでない限り、列を表示するためのタグ付けはありません。PdfBoxのようなツールは、テーブルを抽出するために「推測」を行います。

score 0 · Accepted Answer

私が正しく理解していれば、PDFテキストは位置的に保存されるため、行や列の概念はありません。つまり、別の列から読み取っている「可能性」に基づいたヒューリスティックを使用する必要があります。

単語間のスペースの量を比較することで、これを試すことができます。（私はITextSharpインターフェースに精通していないので、それができないことについて言及している場合はご容赦ください。..私はほとんどpdfNetに精通しています。

私が思いついたもう1つのアイデアは、テキストに列を区切る垂直線などの視覚的な手がかりがある場合です。その場合は、テキストが列行の左側にあるか右側にあるかを判断するためのヒューリスティックを考え出すことができるはずです。

..。

ただし、可能であれば、よりデータベースに適した形式でデータを取得するのが最善の方法です。これにより、長期的には心の痛みを軽減できる可能性があります。

-ジェイソン

score 0 · Accepted Answer

私はこれを行うための簡単な方法はないと結論付けています。少なくとも表形式でデータを読み取る。Markから提供された提案を試しましたが、私の要件に従って実行できないようです。

3 に答える 3