これは非常に面倒です。一般に、PDFファイルのテキストコンテンツの抽出は、PDFが実行したいことの粒度に反して実行されます。
テキストを取り出そうとすることから始めます。これは、PDFの作成方法に応じて、多かれ少なかれ成功する可能性があります。開始する場所の1つは、GhostScriptまたはpstotextです。それが失敗した場合、この男はテキスト抽出ツールのリストを持っています。テキストストリームを取得したら、プログラムで表形式の構造を再構築してみてください。
最後に、あなたがひどく体調が悪い場合、そしてPDFが協力しない場合、あなたはOCRのことをすることができます。適切な長期的解決策は、最初にデータを適切な形式にすることです。これは、単一の、大規模で、苦痛を伴う、おそらく部分的に手動のプロセスを実行することによって行われます。または、ソースに移動して、データをより使いやすい形式で提供することを提案します。
より具体的なPDFサンプルファイルを提供できれば、より良いまたはより正確な答えがあるかもしれません...これに対する一般的な解決策はありません。可能であれば、特定のソースデータに合わせて調整する必要があります。
一般的な質問に対するこのかなり指摘された応答に注意してください...あなたが目の前に問題を抱えているという事実には役立ちませんが、明確な答えがない理由を上司に説明するときに役立つトップカバーになるかもしれませんか?;-)
新しいSOの質問がポップアップし、このライブラリ(iTextSharp )を参照しました。これはおそらく関連しているように見えます。SOの質問:抽出するための最良の方法...