問題タブ [pdf-to-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHPでPDFからHTMLへ
一部の PDF ファイルを HTML に変換する必要があります。PHP 用の pdftohtml をダウンロードしましたが、使い方がわかりません。私はこのコードでそれを実行しようとしています:
これにより、空白の Web ページが作成されます。
何を変更する必要がありますか? このスクリプトを実行するための正しいコードは何ですか?
php - 画像は、pdf から変換された html で常に一番上に表示されます
次のコードを使用しており、特定の pdf ページのすべてのコンテンツが正しい方法で変換されています。ただし、pdf ページの中央に画像がある場合、HTML のその画像が上部に表示されます。
PHP コード:
編集:
これに使用した PDF を確認してください: https://www.dropbox.com/s/6uy9wq27ff00n0x/create.pdf?dl=0
このPDFでは、画像は2行目以降です。
// 変換された html ページを読み込みます。shell_exec は html ファイルに 's' を追加し、creates.html
// 出力
今見る
BODYタグの直後です。つまり、3 行目の代わりに画像が一番上に表示されます。
abcpdf - abcpdfを使用してpdfをhtmlに変換します
abcpdfを使用してpdfドキュメントを対応するhtmlドキュメントに変換する方法を探しています。可能かどうか教えてください。参考までに、私のpdfドキュメントには画像とともにリッチテキストが含まれています。
pdf - pdf 変換で空白のテーブルしか得られない
さまざまなオンライン ツールを使用して .pdf ドキュメントを Excel に変換しようとしましたが、常に 4 つの空白のテーブルが表示されるか、ファイル サイズが大きいと表示されるか、ジャンク文字が表示されます。誰かがファイルを変換しない代わりの方法を教えてくれませんか? このファイルは非常に複雑で、膨大なデータが含まれています。ファイルはhttps://lottery.mhada.gov.in/results/file/160622122051Mhada%20-%20Lottery%20Ad(English).pdfからダウンロードできます。
助けてください
python - PythonでHTMLタグをテキストファイルに書き込む
pdfminer を使用して、複雑な (表、図) および非常に長い pdf を html に変換しました。結果をさらに解析し (例: テーブル、段落などを抽出)、nltk の文トークナイザーを使用してさらに分析したいと考えています。この目的のために、html をテキスト ファイルに保存して、解析方法を理解したいと考えています。残念ながら、私のコードは html を txt に書き込みません:
その上、コードはシェル内の html 文字列全体を出力します: どうすれば回避できますか?
html - pdf2htmlEX を使用して複数のファイルを変換する
複数のファイルまたはpdfファイルを含むフォルダーでpdf2htmlEXをどのように使用しますか?
単一のファイルを問題なく変換できますが、100 個のファイルに対してコマンドを 100 回実行したくないことは明らかです。
ドキュメントには何も見つかりませんでした。「*.pdf」のようなものは機能しません。
ありがとう!