PDFをHTMLまたはHTMLに簡単に変換できる他の形式に変換するために使用できる適切なライブラリはありますか?
同様の質問を検索しましたが、運が悪かったです。
PDF、場合によっては画像からテキストを抽出できるようにしたい。PDFをHTMLに埋め込むつもりはありません。
PDFをHTMLまたはHTMLに簡単に変換できる他の形式に変換するために使用できる適切なライブラリはありますか?
同様の質問を検索しましたが、運が悪かったです。
PDF、場合によっては画像からテキストを抽出できるようにしたい。PDFをHTMLに埋め込むつもりはありません。
Linuxを使用している場合は、次を試してくださいpdftohtml
。
sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html
MacOS(homebrewを使用)では、次のコマンドpdftohtml
を使用してインストールできます。
brew install pdftohtml
オープンソースの電子ブックコンバーターCalibreは、PDFファイルをHTMLに変換することもでき、MacOS、Windows、およびLinuxで使用できます。
上記のコメントで述べたように、ここからダウンロードできるツールAble2Extract7を使用してpdfをhtmlに変換することは間違いなく可能です。
私はこのツールを2年近く使用しており、かなり満足しています。このツールを使用すると、PDFをWord、Excel、PowerPoint、Publisher、HTML、OOなどに変換できます。スクリーンショットを参照してください
Imp注:このツールはフリーウェアではありません。
HTH
ダウンロード
import java.io.InputStream;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.tools.PDFText2HTML;
// .....
try {
InputStream is = // ..... Read PDF file
PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
PDFText2HTML converter = new PDFText2HTML(); // the converter
String html = converter.getText(pdd); // That's it!
pdd.close();
is.close();
} catch (IOException ioe) {
// ......
}
注意:画像はHTML出力にプッシュされません。
PDFをHTMLに変換することはそれほど難しくありません。多くのオンラインオプションがありますが、データを第三者に公開する可能性があります。これらの手順に従うと、出力は素晴らしいです。
PDF2HTMLEXページを開きます。(私が言及した次のステップに従うか、ページの指示に従うことができます。)
パッケージは、ここからWindows用にダウンロードできます。
利用可能な多くのオプションから、「pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip(pdf2htmlEx.exeにはUPXが同梱されています)」をダウンロードすることをお勧めします。
ダウンロードして解凍した後、変換は1つのcmdコマンドで実行できます。
C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
最終コマンド:
pdf2htmlEX.exe c:\1\abc.pdf
(もちろん、フォルダーの名前を短くすることもできますが、ダウンロードを解凍した後と同じように保持しました。cmdのディレクトリを目的のフォルダーまたはGoogleに変更できると想定しています。)
abc.pdfはHTMLに変換され、exeファイルと同じフォルダーにabc.htmlとして保存されます。
ええ、それは間違いなく可能です。あなたがubuntulinuxを使用している場合
apt-get install pdftohtml
それから
pdftohtml myFile.pdf myFile.htm -c -noframes
すべてのフラグの意味を確認したい場合は、次のように入力してください
pdftohtml
Linuxを使用していない場合は、これを実現するために使用できるツールが多数あります。
Linuxpdfgrep
との1つの可能性がありますsed
sudo apt install pdfgrep
pdfgrep .yourdoc.pdf | sed '/^$/d'| sed -e 's/^%%/<p>%%/'| sed -e 's/^--/<p>--/' | sed -e 's/--$/--<p>/'> yourdoc.html
正しくフォーマットするには、それに応じて正規表現を指定する必要がありますsed
。