30

PDFをHTMLに変換するために、一般的な言語でどのような優れたライブラリがありますか?

4

9 に答える 9

5

Apache の PDFBox には、html 抽出機能があります。http://pdfbox.apache.org/

于 2009-11-23T17:47:52.683 に答える
3

If you are working on a Windows box, I think Amyuni has a library for this as well. Their PDF Document Convertor is accessible as a DLL, can be used widely among the languages supported by Visual Studio, and can convert to RTF, TML, EXCEL, JPEG, and TIFF.

于 2009-10-29T19:01:15.733 に答える
2

pdftohtmlプログラムは、pdf を html および xml に変換し、テーブルのスクレイピングに役立つテキストの位置情報を保持します。

xpdf ライブラリに基づいているようで、Windows バイナリもあります。

于 2010-10-04T07:56:43.863 に答える
1

Perl では、SWISH::FilterプラグインSWISH::Filters::Pdf2HTMLを使用できます。( xpdf パッケージが必要です。)

逆 (HTML から PDF) については、この質問を参照してください。

于 2009-10-28T18:07:59.993 に答える
1

http://www.lowagie.com/iText/ Java と C# の両方のオープンソース ライブラリ

于 2009-10-30T04:26:22.220 に答える
0

元の質問のあいまいさを考えると、先に進んで、コマンドライン アプリを実行できる任意の言語で動作するソリューションを提供します。セットアップが少し難しいかもしれませんが、OpenOfficeはサーバー上でヘッドレス モードで実行でき、jodconverterの助けを借りて、任意のファイル形式を他の任意のファイル形式に変換できます (まあ、openoffice が処理できるすべての形式変換) 、 あれは)。

セットアップに役立ついくつかのリンクを次に示します。

于 2009-10-30T02:04:02.017 に答える
0

PDF を HTML に 1 回か 2 回変換する方法を探している場合は、Adobe Online Conversionをお勧めします。

それがあなたが求めているAPIであれば、http: //www.pdfonline.com/にはあなたのニーズに合ったSDKがあります。

それがライブラリである場合は、希望するサーバー側言語をお知らせください。

于 2009-10-28T18:22:57.887 に答える