html - PDFをHTMLに変換する方法は？

Question

PDFをHTMLまたはHTMLに簡単に変換できる他の形式に変換するために使用できる適切なライブラリはありますか？

同様の質問を検索しましたが、運が悪かったです。

PDF、場合によっては画像からテキストを抽出できるようにしたい。PDFをHTMLに埋め込むつもりはありません。

score 23 · Accepted Answer

Linuxを使用している場合は、次を試してくださいpdftohtml。

sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html

MacOS（homebrewを使用）では、次のコマンドpdftohtmlを使用してインストールできます。

brew install pdftohtml

オープンソースの電子ブックコンバーターCalibreは、PDFファイルをHTMLに変換することもでき、MacOS、Windows、およびLinuxで使用できます。

score 6 · Accepted Answer

上記のコメントで述べたように、ここからダウンロードできるツールAble2Extract7を使用してpdfをhtmlに変換することは間違いなく可能です。

私はこのツールを2年近く使用しており、かなり満足しています。このツールを使用すると、PDFをWord、Excel、PowerPoint、Publisher、HTML、OOなどに変換できます。スクリーンショットを参照してください

ここに画像の説明を入力してください

Imp注：このツールはフリーウェアではありません。

HTH

score 3 · Accepted Answer

ダウンロード

pdfbox-2.0.3.jar
fontbox-2.0.3.jar
preflight-2.0.3.jar
xmpbox-2.0.3.jar
pdfbox-tools-2.0.3.jar
pdfbox-debugger-2.0.3.jar

http://pdfbox.apache.org/から

 import java.io.InputStream;
 import java.io.IOException;
 import org.apache.pdfbox.pdmodel.PDDocument;
 import org.apache.pdfbox.tools.PDFText2HTML;

    // .....
    try {
        InputStream is = // ..... Read PDF file
        PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
        PDFText2HTML converter = new PDFText2HTML(); // the converter
        String html = converter.getText(pdd); // That's it!
        pdd.close();
        is.close();
    } catch (IOException ioe) {
        // ......
    }

注意：画像はHTML出力にプッシュされません。

score 3 · Accepted Answer

PDFをHTMLに変換することはそれほど難しくありません。多くのオンラインオプションがありますが、データを第三者に公開する可能性があります。これらの手順に従うと、出力は素晴らしいです。

PDF2HTMLEXページを開きます。（私が言及した次のステップに従うか、ページの指示に従うことができます。）
パッケージは、ここからWindows用にダウンロードできます。

利用可能な多くのオプションから、「pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip（pdf2htmlEx.exeにはUPXが同梱されています）」をダウンロードすることをお勧めします。
ダウンロードして解凍した後、変換は1つのcmdコマンドで実行できます。
```
C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
```
最終コマンド：
```
pdf2htmlEX.exe c:\1\abc.pdf
```
（もちろん、フォルダーの名前を短くすることもできますが、ダウンロードを解凍した後と同じように保持しました。cmdのディレクトリを目的のフォルダーまたはGoogleに変更できると想定しています。）

abc.pdfはHTMLに変換され、exeファイルと同じフォルダーにabc.htmlとして保存されます。

score 1 · Accepted Answer

ええ、それは間違いなく可能です。あなたがubuntulinuxを使用している場合

apt-get install pdftohtml

それから

pdftohtml myFile.pdf myFile.htm -c -noframes

すべてのフラグの意味を確認したい場合は、次のように入力してください

pdftohtml

Linuxを使用していない場合は、これを実現するために使用できるツールが多数あります。

score -1 · Accepted Answer

Linuxpdfgrepとの1つの可能性がありますsed

sudo apt install pdfgrep

pdfgrep  .yourdoc.pdf | sed '/^$/d'| sed -e 's/^%%/<p>%%/'| sed -e 's/^--/<p>--/' | sed -e 's/--$/--<p>/'> yourdoc.html

正しくフォーマットするには、それに応じて正規表現を指定する必要がありますsed。

html - PDFをHTMLに変換する方法は？

6 に答える 6

Related

Reference