PDFをHTMLに変換するために、一般的な言語でどのような優れたライブラリがありますか?
9 に答える
Apache の PDFBox には、html 抽出機能があります。http://pdfbox.apache.org/
If you are working on a Windows box, I think Amyuni has a library for this as well. Their PDF Document Convertor is accessible as a DLL, can be used widely among the languages supported by Visual Studio, and can convert to RTF, TML, EXCEL, JPEG, and TIFF.
pdftohtmlプログラムは、pdf を html および xml に変換し、テーブルのスクレイピングに役立つテキストの位置情報を保持します。
xpdf ライブラリに基づいているようで、Windows バイナリもあります。
Perl では、SWISH::FilterプラグインSWISH::Filters::Pdf2HTMLを使用できます。( xpdf パッケージが必要です。)
逆 (HTML から PDF) については、この質問を参照してください。
http://www.lowagie.com/iText/ Java と C# の両方のオープンソース ライブラリ
元の質問のあいまいさを考えると、先に進んで、コマンドライン アプリを実行できる任意の言語で動作するソリューションを提供します。セットアップが少し難しいかもしれませんが、OpenOfficeはサーバー上でヘッドレス モードで実行でき、jodconverterの助けを借りて、任意のファイル形式を他の任意のファイル形式に変換できます (まあ、openoffice が処理できるすべての形式変換) 、 あれは)。
セットアップに役立ついくつかのリンクを次に示します。
PDF を HTML に 1 回か 2 回変換する方法を探している場合は、Adobe Online Conversionをお勧めします。
それがあなたが求めているAPIであれば、http: //www.pdfonline.com/にはあなたのニーズに合ったSDKがあります。
それがライブラリである場合は、希望するサーバー側言語をお知らせください。