c - CでPDFを読む

Question

PDFファイルの内容を読めるようにしたい。LinuxのCでそれを行う必要があります。

これに近づくことができたのはここでしたが、ハルはPDFを作成することしかできず、それらを読むことができないと思います（100％確実ではありません）.

PS: PDF のプレーンテキストのみが必要です

score 4 · Accepted Answer

libpopplerをチェックしてください。PDF属性を照会するだけで、テキストの抽出に使用したことはありません。使い方はとても簡単です。

score 2 · Accepted Answer

それらをどの程度うまく解析する必要がありますか? 文字列を抽出するだけなら比較的簡単ですが、完全に正確なレンダリングは困難です。evince または ghostscript のソースを見てみましょう。

これはC++用ですが、PDF構造を理解するための良い出発点かもしれませんhttp://www.codeproject.com/KB/cpp/ExtractPDFText.aspx (前に間違ったリンクを申し訳ありません)

score 0 · Accepted Answer

もう 1 つ考えられるのは、VersyPDF です。PDFを編集できると主張しています... http://versypdf.sybrex-systems-ltd.qarchive.org/

3 に答える 3