1

私は .net を初めて使用します。3 つのテーブルを含む pdf があります (購入の詳細を含む)。私のタスクは、pdf から 3 つのテーブルすべてを抽出し、c# コードを使用してそれぞれを Excel シート (3 つの Excel シート) に変換することです。私は3日間グーグルで検索しましたが、見つけたのはpdfからテキストを抽出するコードだけでした(ただし、フォーマットはありません)。サードパーティのツールを購入することはできません。少なくともテキストを適切な表形式で抽出する方法が必要です。相互運用機能を使用して Excel に変換するか、Excel に直接変換するコードを使用します。解決策が何であれ、早急に必要です。助けてください。

4

2 に答える 2

2

itextpdfは、pdf から情報を抽出するための c# をサポートしていますが、テーブルを抽出できるかどうかを答えるには:

上記のように、PDF が技術的な観点からフォームでない場合、フォームのように見える PDF からフィールドを取得することはできません。表形式の構造 (タグを使用) が PDF 内にない場合、表のように見える PDF から表を取得することはできません。

サポートパネルから入手したもの

于 2013-09-29T13:08:07.873 に答える
1

xpdfをご覧になることをお勧めします。コマンド ライン インターフェイスがあり、pdf からテキスト ファイルを取得できます。最も重要なことは、列の場合、xpdf は適切な間隔のテキスト ファイルを生成するため、Substring() を使用するか、最悪の場合は正規表現を使用してデータを簡単に読み取ることができます。最も単純なケースでは、PDF 出力を「固定幅フィールド」を含むテキスト ファイルとして Excel に直接インポートできます。

于 2013-09-29T14:25:00.530 に答える