4

PDFファイルの内容を読めるようにしたい。LinuxのCでそれを行う必要があります。

これに近づくことができたのはここでしたが、ハルはPDFを作成することしかできず、それらを読むことができないと思います(100%確実ではありません).

PS: PDF のプレーン テキストのみが必要です

4

3 に答える 3

4

libpopplerをチェックしてください。PDF属性を照会するだけで、テキストの抽出に使用したことはありません。使い方はとても簡単です。

于 2009-04-21T14:54:01.107 に答える
2

それらをどの程度うまく解析する必要がありますか? 文字列を抽出するだけなら比較的簡単ですが、完全に正確なレンダリングは困難です。evince または ghostscript のソースを見てみましょう。

これはC++用ですが、PDF構造を理解するための良い出発点かもしれませんhttp://www.codeproject.com/KB/cpp/ExtractPDFText.aspx (前に間違ったリンクを申し訳ありません)

于 2009-04-21T14:51:10.643 に答える
0

もう 1 つ考えられるのは、VersyPDF です。PDFを編集できると主張しています... http://versypdf.sybrex-systems-ltd.qarchive.org/

于 2009-04-21T14:59:55.100 に答える