itext - PDFテーブルコンテンツデータを読むには?

Question

Excelファイルのように、表形式のデータのみを含むpdfファイルを読み取る必要があります。指定されたpdfファイルのセル値を抽出する必要があります。とにかくitext APIを使用して可能ですか？何か共有したいことがあれば、それを共有してください。それ以外の解決策はありますか?

score 2 · Accepted Answer

このPDF形式は、テキストとグラフィックが配置され、構造情報がまったくない単なるキャンバスです。iText-objectsそのため、PDF ファイルには何もありません。各ページにはおそらく多数のStringsがありますが、これらの文字列を使用して句や段落を再構築することはできません。おそらくいくつかの線が描かれていますが、Table-objectこれらの線に基づいてを取得することはできません。

要するに、PDF ファイルのコンテンツの解析はでは不可能ですiText。

あなたはこれを試すことができます！これにより、PDFページを読むことができます。

score 0 · Accepted Answer

最近、この問題に遭遇しました。itext で動作させることができませんでした。

私が見つけた別の解決策は、PDF ドキュメントを Adobe で開き、それを xml にエクスポートすることでした。少なくとも私のPDFではテーブル情報が保持されていたので、プログラムでXMLを操作して、Excelなどの表形式のファイルを生成することができました.

私が遭遇したもう 1 つの問題は、Adobe では一度に 1 つのファイルしかエクスポートできず、ファイルがたくさんあるということでした。幸いなことに、アドビにはマージ機能もあります。最終的にすべてのファイルをマージし、それらを 1 つの大きな XML ファイルとしてエクスポートし、そのファイルを操作して必要なものを生成しました。

itext - PDFテーブルコンテンツデータを読むには?

2 に答える 2

Related

Reference