30

PDFをHTMLまたはHTMLに簡単に変換できる他の形式に変換するために使用できる適切なライブラリはありますか?

同様の質問を検索しましたが、運が悪かったです。

PDF、場合によっては画像からテキストを抽出できるようにしたい。PDFをHTMLに埋め込むつもりはありません。

4

6 に答える 6

23

Linuxを使用している場合は、次を試してくださいpdftohtml

sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html

MacOS(homebrewを使用)では、次のコマンドpdftohtmlを使用してインストールできます。

brew install pdftohtml

オープンソースの電子ブックコンバーターCalibreは、PDFファイルをHTMLに変換することもでき、MacOS、Windows、およびLinuxで使用できます。

于 2016-11-27T22:37:13.887 に答える
6

上記のコメントで述べたように、ここからダウンロードできるツールAble2Extract7を使用してpdfをhtmlに変換することは間違いなく可能です。

私はこのツールを2年近く使用しており、かなり満足しています。このツールを使用すると、PDFをWord、Excel、PowerPoint、Publisher、HTML、OOなどに変換できます。スクリーンショットを参照してください

ここに画像の説明を入力してください

Imp注:このツールはフリーウェアではありません。

HTH

于 2012-06-07T06:27:42.177 に答える
3

ダウンロード

  • pdfbox-2.0.3.jar
  • fontbox-2.0.3.jar
  • preflight-2.0.3.jar
  • xmpbox-2.0.3.jar
  • pdfbox-tools-2.0.3.jar
  • pdfbox-debugger-2.0.3.jar

http://pdfbox.apache.org/から

 import java.io.InputStream;
 import java.io.IOException;
 import org.apache.pdfbox.pdmodel.PDDocument;
 import org.apache.pdfbox.tools.PDFText2HTML;

    // .....
    try {
        InputStream is = // ..... Read PDF file
        PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
        PDFText2HTML converter = new PDFText2HTML(); // the converter
        String html = converter.getText(pdd); // That's it!
        pdd.close();
        is.close();
    } catch (IOException ioe) {
        // ......
    }

注意:画像はHTML出力にプッシュされません。

于 2016-11-23T20:42:44.350 に答える
3

PDFをHTMLに変換することはそれほど難しくありません。多くのオンラインオプションがありますが、データを第三者に公開する可能性があります。これらの手順に従うと、出力は素晴らしいです。

  1. PDF2HTMLEXページを開きます。(私が言及した次のステップに従うか、ページの指示に従うことができます。)

  2. パッケージは、ここからWindows用にダウンロードできます

    利用可能な多くのオプションから、「pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip(pdf2htmlEx.exeにはUPXが同梱されています)」をダウンロードすることをお勧めします。

  3. ダウンロードして解凍した後、変換は1つのcmdコマンドで実行できます。

    C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
    

    最終コマンド:

    pdf2htmlEX.exe c:\1\abc.pdf
    

    (もちろん、フォルダーの名前を短くすることもできますが、ダウンロードを解凍した後と同じように保持しました。cmdのディレクトリを目的のフォルダーまたはGoogleに変更できると想定しています。)

abc.pdfはHTMLに変換され、exeファイルと同じフォルダーにabc.htmlとして保存されます。

于 2017-06-08T23:42:14.757 に答える
1

ええ、それは間違いなく可能です。あなたがubuntulinuxを使用している場合

apt-get install pdftohtml

それから

pdftohtml myFile.pdf myFile.htm -c -noframes

すべてのフラグの意味を確認したい場合は、次のように入力してください

pdftohtml

Linuxを使用していない場合は、これを実現するために使用できるツールが多数あります。

于 2012-03-08T18:40:12.000 に答える
-1

Linuxpdfgrepとの1つの可能性がありますsed

sudo apt install pdfgrep

pdfgrep  .yourdoc.pdf | sed '/^$/d'| sed -e 's/^%%/<p>%%/'| sed -e 's/^--/<p>--/' | sed -e 's/--$/--<p>/'> yourdoc.html

正しくフォーマットするには、それに応じて正規表現を指定する必要がありますsed

于 2021-03-03T07:00:17.787 に答える