c# - PDFファイルをエクセルシートに変換

Question

私は .net を初めて使用します。3 つのテーブルを含む pdf があります (購入の詳細を含む)。私のタスクは、pdf から 3 つのテーブルすべてを抽出し、c# コードを使用してそれぞれを Excel シート (3 つの Excel シート) に変換することです。私は3日間グーグルで検索しましたが、見つけたのはpdfからテキストを抽出するコードだけでした（ただし、フォーマットはありません）。サードパーティのツールを購入することはできません。少なくともテキストを適切な表形式で抽出する方法が必要です。相互運用機能を使用して Excel に変換するか、Excel に直接変換するコードを使用します。解決策が何であれ、早急に必要です。助けてください。

score 2 · Accepted Answer

itextpdfは、pdf から情報を抽出するための c# をサポートしていますが、テーブルを抽出できるかどうかを答えるには:

上記のように、PDF が技術的な観点からフォームでない場合、フォームのように見える PDF からフィールドを取得することはできません。表形式の構造 (タグを使用) が PDF 内にない場合、表のように見える PDF から表を取得することはできません。

サポートパネルから入手したもの

score 1 · Accepted Answer

xpdfをご覧になることをお勧めします。コマンドラインインターフェイスがあり、pdf からテキストファイルを取得できます。最も重要なことは、列の場合、xpdf は適切な間隔のテキストファイルを生成するため、Substring() を使用するか、最悪の場合は正規表現を使用してデータを簡単に読み取ることができます。最も単純なケースでは、PDF 出力を「固定幅フィールド」を含むテキストファイルとして Excel に直接インポートできます。

c# - PDFファイルをエクセルシートに変換

2 に答える 2

Related

Reference