問題タブ [pdf-to-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
11488 参照

php - PHPでPDFからHTMLへ

一部の PDF ファイルを HTML に変換する必要があります。PHP 用の pdftohtml をダウンロードしましたが、使い方がわかりません。私はこのコードでそれを実行しようとしています:

これにより、空白の Web ページが作成されます。

何を変更する必要がありますか? このスクリプトを実行するための正しいコードは何ですか?

0 投票する
2 に答える
162 参照

php - 画像は、pdf から変換された html で常に一番上に表示されます

次のコードを使用しており、特定の pdf ページのすべてのコンテンツが正しい方法で変換されています。ただし、pdf ページの中央に画像がある場合、HTML のその画像が上部に表示されます。

PHP コード:

編集:

これに使用した PDF を確認してください: https://www.dropbox.com/s/6uy9wq27ff00n0x/create.pdf?dl=0

このPDFでは、画像は2行目以降です。

// 変換された html ページを読み込みます。shell_exec は html ファイルに 's' を追加し、creates.html

// 出力

今見る

BODYタグの直後です。つまり、3 行目の代わりに画像が一番上に表示されます。

0 投票する
2 に答える
1358 参照

abcpdf - abcpdfを使用してpdfをhtmlに変換します

abcpdfを使用してpdfドキュメントを対応するhtmlドキュメントに変換する方法を探しています。可能かどうか教えてください。参考までに、私のpdfドキュメントには画像とともにリッチテキストが含まれています。

0 投票する
0 に答える
159 参照

pdf - pdf 変換で空白のテーブルしか得られない

さまざまなオンライン ツールを使用して .pdf ドキュメントを Excel に変換しようとしましたが、常に 4 つの空白のテーブルが表示されるか、ファイル サイズが大きいと表示されるか、ジャンク文字が表示されます。誰かがファイルを変換しない代わりの方法を教えてくれませんか? このファイルは非常に複雑で、膨大なデータが含まれています。ファイルはhttps://lottery.mhada.gov.in/results/file/160622122051Mhada%20-%20Lottery%20Ad(English).pdfからダウンロードできます。

助けてください

0 投票する
1 に答える
351 参照

python - PythonでHTMLタグをテキストファイルに書き込む

pdfminer を使用して、複雑な (表、図) および非常に長い pdf を html に変換しました。結果をさらに解析し (例: テーブル、段落などを抽出)、nltk の文トークナイザーを使用してさらに分析したいと考えています。この目的のために、html をテキスト ファイルに保存して、解析方法を理解したいと考えています。残念ながら、私のコードは html を txt に書き込みません:

その上、コードはシェル内の html 文字列全体を出力します: どうすれば回避できますか?

0 投票する
1 に答える
457 参照

html - pdf2htmlEX を使用して複数のファイルを変換する

複数のファイルまたはpdfファイルを含むフォルダーでpdf2htmlEXをどのように使用しますか?

単一のファイルを問題なく変換できますが、100 個のファイルに対してコマンドを 100 回実行したくないことは明らかです。

ドキュメントには何も見つかりませんでした。「*.pdf」のようなものは機能しません。

ありがとう!