PDFファイルの内容を読めるようにしたい。LinuxのCでそれを行う必要があります。
これに近づくことができたのはここでしたが、ハルはPDFを作成することしかできず、それらを読むことができないと思います(100%確実ではありません).
PS: PDF のプレーン テキストのみが必要です
libpopplerをチェックしてください。PDF属性を照会するだけで、テキストの抽出に使用したことはありません。使い方はとても簡単です。
それらをどの程度うまく解析する必要がありますか? 文字列を抽出するだけなら比較的簡単ですが、完全に正確なレンダリングは困難です。evince または ghostscript のソースを見てみましょう。
これはC++用ですが、PDF構造を理解するための良い出発点かもしれませんhttp://www.codeproject.com/KB/cpp/ExtractPDFText.aspx (前に間違ったリンクを申し訳ありません)
もう 1 つ考えられるのは、VersyPDF です。PDFを編集できると主張しています... http://versypdf.sybrex-systems-ltd.qarchive.org/