ASP.netアプリケーションでPDFBOXを使用してPDFファイルを読み取ることができますが、テーブルの空のセルにスペースを追加していません.C#でPDFBOXを使用してPDFファイルから空のフィールドを読み取る方法. PDFファイルを読む他の方法はありますか?
ありがとう 。
テキストがどこにあるべきかを事前に正確に知っていて、テキストを抽出するときにテキストの場所を取得できる場合、この種のことをやってのけることができるかもしれません。
行とセルの場所が事前にわからない場合は、テキストの場所に基づいて推測する必要があります。これは簡単ではありません。
一般に、PDF からデータを抽出することはお勧めできません。PDF には「表」の概念がありません (PDF の作成者が「マークされたコンテンツ」を使用する方法をうまく利用しない限り、これはまだまれです)。PDF には、線、グリフ、および画像 (ピクセルの山) があります。その情報からフォーマットを抽出するのは非常に困難です...そして、ほとんど不可能な場合もあります。
PDFBox が抽出されたテキストの場所を提供するかどうかはわかりませんが、iTextSharp は提供します。