3

imagemagick を使用して、PDF (pdfLaTex で生成) を画像としてレンダリングします。

convert -density 120 test.pdf -trim test.png

次に、この画像を HTML ファイルで使用します (独自の wiki エンジンにラテックス コードを含めるため)。

もちろん、PNG ファイルには、PDF ファイルに含まれるハイパーリンクはありません。

ハイパーリンクの座標とターゲット URL を抽出して、HTMLイメージ マップを作成できる可能性はありますか?

違いがある場合: 外部 (http://) ハイパーリンクのみが必要で、PDF 内部ハイパーリンクは必要ありません。PDF にはグラフィックやフォーミュラも含まれているため、テキストベースのソリューションpdftohtmlは受け入れられません。

4

2 に答える 2

2

ImagemagickはGhostscriptを使用してPDFファイルを画像にレンダリングします。Ghostscriptを使用してリンク注釈を抽出することもできます。実際、PDFインタープリターは、pdfwriteデバイスの利益のためにこれをすでに実行しているため、元のデバイスと同じハイパーリンクを持つPDFファイルを生成できます。

少量のPostScriptプログラミングを行う必要があります。詳細が必要な場合は、お知らせください。

gs / Resource / Initのファイルpdf_main.psには、PDFインタープリターの大部分が含まれています。そこにあなたはこれを見つけるでしょう:

  /Link {
    mark exch
    dup /BS knownoget { << exch { oforce } forall >> /BS exch 3 -1 roll } if
    dup /F knownoget { /F exch 3 -1 roll } if
    dup /C knownoget { /Color exch 3 -1 roll } if
    dup /Rect knownoget { /Rect exch 3 -1 roll } if
    dup /Border knownoget {
....
    } if
    { linkdest } stopped 

そのコードは、リンク注釈(PDFファイル内のハイパーリンク)を処理します。'linkdest'をPostScriptコードに置き換えて、代わりにデータをファイルに書き込むことができます。これにより、ハイパーリンクが提供されます。この種の処理は通常、それを利用できないレンダリングデバイスでは無効になっているため、コマンドラインで-dDOPDFMARKSも設定する必要があることに注意してください。

于 2012-05-15T07:07:21.950 に答える
0

tools/dumppdf.py私の同僚は、私が必要としているほとんどの機能を含む素晴らしいライブラリ PDFMiner を見つけました。 http://www.unixuser.org/~euske/python/pdfminer/を参照してください。

これに対する答えがある別の SO の質問もあります。 PDF から注釈と画像を抽出する Linux PDF ライブラリを探している ようです Ruby の pdfreader もこれを行うようですhttps://github.com/yob/pdf-reader

于 2014-09-29T06:45:00.197 に答える