Excelファイルのように、表形式のデータのみを含むpdfファイルを読み取る必要があります。指定されたpdfファイルのセル値を抽出する必要があります。とにかくitext APIを使用して可能ですか?何か共有したいことがあれば、それを共有してください。それ以外の解決策はありますか?
2 に答える
このPDF
形式は、テキストとグラフィックが配置され、構造情報がまったくない単なるキャンバスです。iText-objects
そのため、PDF ファイルには何もありません。各ページにはおそらく多数のStrings
がありますが、これらの文字列を使用して句や段落を再構築することはできません。おそらくいくつかの線が描かれていますが、Table-object
これらの線に基づいて を取得することはできません。
要するに、PDF ファイルのコンテンツの解析は では不可能ですiText
。
あなたはこれを試すことができます!これにより、PDF
ページを読むことができます。
最近、この問題に遭遇しました。itext で動作させることができませんでした。
私が見つけた別の解決策は、PDF ドキュメントを Adobe で開き、それを xml にエクスポートすることでした。少なくとも私のPDFではテーブル情報が保持されていたので、プログラムでXMLを操作して、Excelなどの表形式のファイルを生成することができました.
私が遭遇したもう 1 つの問題は、Adobe では一度に 1 つのファイルしかエクスポートできず、ファイルがたくさんあるということでした。幸いなことに、アドビにはマージ機能もあります。最終的にすべてのファイルをマージし、それらを 1 つの大きな XML ファイルとしてエクスポートし、そのファイルを操作して必要なものを生成しました。