0

PDF ファイルを txt に変換する C# または C++ (MFC) アプリケーションを作成する必要があります。変換するだけでなく、ヘッダー、フッター、左余白のゴミ文字などを削除する必要があります。したがって、アプリケーションでは、ユーザーがページ余白を設定して不要なものを切り取ることができます。実際に xpdf を使用してそのようなアプリケーションを作成しましたが、抽出したテキストにカスタム タグを挿入して斜体と太字を維持しようとすると、いくつかの問題が発生します。多分誰かが何か役に立つことを提案できますか?

ありがとう。

4

2 に答える 2

1

そこにはシェアウェアとフリーウェアのユーティリティがあります。ソースコードを取得してみるか、そのまま使用してみてください。

PDF 仕様の公開バージョンは、次の場所にあります: Adob​​e PDF 仕様

PDF シェアウェア リーダーを見つけることができます: PDF リーダー ソース コード @ SourceForge

于 2011-09-14T18:43:26.710 に答える
0

ポドフォを見てください。多くの強力な編集機能を備えた LGPL ライセンスのライブラリです。その例の 1 つである txt2pdf IIRC は、良い出発点です。基本的なテキスト抽出を示しています。そこから、事前 (pdf エンジン) または事後 (テキスト) フィルタリングが目標に十分かどうかを確認できます。私はPdf Hummusを使用できませんでしたが、それほど単純ではありませんが、これらの機能も備えているはずです。

于 2015-02-13T21:46:02.793 に答える