2

Excelファイルのように、表形式のデータのみを含むpdfファイルを読み取る必要があります。指定されたpdfファイルのセル値を抽出する必要があります。とにかくitext APIを使用して可能ですか?何か共有したいことがあれば、それを共有してください。それ以外の解決策はありますか?

4

2 に答える 2

2

このPDF形式は、テキストとグラフィックが配置され、構造情報がまったくない単なるキャンバスです。iText-objectsそのため、PDF ファイルには何もありません。各ページにはおそらく多数のStringsがありますが、これらの文字列を使用して句や段落を再構築することはできません。おそらくいくつかの線が描かれていますが、Table-objectこれらの線に基づいて を取得することはできません。

要するに、PDF ファイルのコンテンツの解析は では不可能ですiText

あなたはこれを試すことができます!これにより、PDFページを読むことができます。

于 2012-08-22T09:08:13.943 に答える
0

最近、この問題に遭遇しました。itext で動作させることができませんでした。

私が見つけた別の解決策は、PDF ドキュメントを Adob​​e で開き、それを xml にエクスポートすることでした。少なくとも私のPDFではテーブル情報が保持されていたので、プログラムでXMLを操作して、Excelなどの表形式のファイルを生成することができました.

私が遭遇したもう 1 つの問題は、Adobe では一度に 1 つのファイルしかエクスポートできず、ファイルがたくさんあるということでした。幸いなことに、アドビにはマージ機能もあります。最終的にすべてのファイルをマージし、それらを 1 つの大きな XML ファイルとしてエクスポートし、そのファイルを操作して必要なものを生成しました。

于 2015-05-13T15:37:57.770 に答える