14

プログラムでPDFをHTMLに変換しようとしています。これまでpdftohtmlを使用してきましたが、ユーザーは結果に満足していません。

これが私が必要とするものです:

  • 私はRubyonRailsを使用していますが、Unixで動作するツールはすべて、コマンドラインから呼び出すことができるので動作します。しかしもちろん、素敵な宝石やプラグインは完璧でしょう。

  • 私はそれがオープンソースであることを望みます

  • 画像を処理できる必要があります

  • 必要に応じて画像を破棄するオプションがあればいいのですが

  • 安定している必要があります

  • 元のpdfに近いレイアウトでhtmlを返す必要があります(私はpdftohtmlを試しましたが、多くの場合、結果はそれほど良くありません)

4

9 に答える 9

12

pdftohtml/xpdfの代替案は次のとおりです。

  • アドビには、無料のオンラインPDFからHTMLまたはテキストへの変換サービスがあります。ドキュメントを元に戻すには1〜2分かかる場合がありますが、このオプションを使用すると最良の結果が得られると思います。
  • PDFファイルの内部にアクセスできるpdfリーダーのrubygemがあります。これには、開発/拡張が含まれますが、これを使用してPDFファイルを解析し、見栄えの良いHTMLを生成することができます。これは、ユーザーが変換しているファイルの種類を事前に知っている場合(標準化されたフォームで作業している場合など)、思ったよりも簡単な場合があります。
  • ghostscript(ここにあるgem)を使用して、最初にPDFを別の形式に変換する場合は、さらに多くのオプションがあります。gemはPDFファイルから画像(png、jpgなど)を生成できますが、「PostScriptから[ここにフォーマットを挿入]」へのコンバーターが無数にあるように見えるので、PostScriptファイルに変換するのが最善の方法かもしれません。
于 2010-01-06T22:19:53.543 に答える
7

PDF から HTML への変換の場合、pdf2htmlEX は非常に優れたツールのようです (すべての例/サンプルを見てください)。

https://github.com/coolwanglu/pdf2htmlEX

于 2013-10-02T20:57:40.787 に答える
3

他のすべてが失敗した場合は、各ページを (画像マジックなどを使用して) 画像に変換し、http://books.google.comまたはhttp://safari.oreilly.comのように画像を表示できます。それは帯域幅を浪費しますが、元の忠実度を得ることができます.

于 2010-01-06T17:27:24.717 に答える
2

私はしばらくの間、PDF を入力として使用する研究プロジェクトに取り組みました。あなたが求めているのは本当に難しい作業であり、完璧にこなすソフトウェアはありません。HTML には のような構造がありますが<p>、PDF は純粋にプレゼンテーション用です。HTML 文書は、「これは段落です。これは画像です」と言うでしょう。プレゼンテーションはそこから解釈されます。PDFドキュメントは基本的に、「この文字は位置X、Yでレンダリングする必要があります。この次の文字は位置でレンダリングされます...」などです。したがって、そこから段落を作成することさえ難しい場合があります。

私は Java で作業していたので、私が使用した特定のプログラムがあなたにとってあまり役に立たないと思います。また、PDF ジェネレーターの中には、画像を小さな画像につなぎ合わせて並べて表示するものがあることを思い出します。これは非常に苦痛でした。

別のフォーマットで作業したり、期待値を下げたりする方法はありますか? Wayne が提案する画像処理を行うこともできますが、それは実際には HTML ではありませ(そして、アクセス可能ではありません。それは懸念事項ですか?)。それはあなたが一緒に暮らすものでなければならないかもしれません。

于 2010-01-10T17:48:01.273 に答える
0

オープンオフィスのヘッドレスで(poyconverterまたはjodconverterを介して)ドキュメントを変換するためのrubygemをリリースしました。また、他のいくつかのライブラリ(pdftoolsおよびnetpbm)を統合して、pdfファイルからテキストダン画像を抽出します。

ここで見つけることができますhttps://github.com/itkin/proselytism.git

自由に独自のコンバーターを追加して、いくつかの問題を報告してください

于 2013-03-06T08:12:11.837 に答える
0

poppler または xpdf を使用してみてください。ただし、魔法と拘束力が必要です。

于 2010-01-06T17:48:42.857 に答える
0

これを試すことができます。Ruby を pdftohtml ユーティリティにラップすることに最初のカットを取りました。Gem はこちらから入手できます: http://gemcutter.org/gems/pdftohtmlr

于 2010-02-11T18:49:49.057 に答える
0

しばらくpdftohtmlを使っていて、html版の表示結果に不満があったので、google appsのドキュメントAPIかscribd API(今のお気に入り)のどちらかを使おうと考えています。

http://www.scribd.com/developers/api

最終的には、おそらく pdftohtml を使用して pdf ファイルのテキスト コンテンツを抽出し、scribd API を使用して元のファイルをユーザー ページに表示します。

于 2010-02-12T05:53:18.920 に答える
0

http://www.pdf-to-html-word.com/pdf-to-htmlを試すことができます。 これは非常にうまく機能します。その機能を確認した後、私はそれを支払いました。無料で試乗できます。または、Acrobat Pro を使用し、CSS を使用して HTML として保存します。それもうまくいきます。しかし、大量のファイルを扱うのは面倒です。

于 2010-01-11T20:31:03.807 に答える