問題タブ [pdf-to-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
asp.net - ASP.NET で PDF ファイルを HTML に変換する最良の方法は何ですか?
ユーザーが行うことは、自分のマシンで PDF ドキュメントを選択し、それを自分の Web サイトにアップロードして、Web サイトに表示する HTML ドキュメントに変換することです。ドキュメントは変換後にデータベースに保存されます。
PDF を HTML に変換する最良の方法は何ですか?
私は、ユーザーが「ニュース」記事を pdf として作成し、それをサーバーにアップロードして HTML に変換し、Web サイトに表示するという要件を受け取りました。
php - PDFをHTMLに変換
PDF ドキュメントを変換してブラウザで HTML として表示するための最適なソリューションは何ですか? このサイトにはいくつかの PDF ドキュメントがあり、訪問者は [HTML として表示] をクリックすると、HTML ファイルとして画面に表示されます。
PHP、Linux、Apache を実行する標準的な Web サイト。
pdf-to-html - PDFドキュメントをhtmlファイルに変換する方法は?
フォーマットを維持する必要があり、オリジナルとほぼ同じに見えます。
html - Ruby on Railsに適したPDFからHTMLへのコンバーターは何ですか?
プログラムでPDFをHTMLに変換しようとしています。これまでpdftohtmlを使用してきましたが、ユーザーは結果に満足していません。
これが私が必要とするものです:
私はRubyonRailsを使用していますが、Unixで動作するツールはすべて、コマンドラインから呼び出すことができるので動作します。しかしもちろん、素敵な宝石やプラグインは完璧でしょう。
私はそれがオープンソースであることを望みます
画像を処理できる必要があります
必要に応じて画像を破棄するオプションがあればいいのですが
安定している必要があります
元のpdfに近いレイアウトでhtmlを返す必要があります(私はpdftohtmlを試しましたが、多くの場合、結果はそれほど良くありません)
c# - c#を使用してpdfをhtml/xmlに変換します
C#を使用してpdfをhtmlに変換したい...誰かアイデアを教えてください..
pdftotext - pdftohtml の代替案
私は pdftohtml を試していますが、テーブルを正しく解析するのが難しい場合があります。2 つの列のテキストを 1 つのセルにグループ化しているため、結果のデータを解析しようとしても無駄です!
これは PDF 内で 1 回か 2 回しか発生しないため、まったく予測できないことに注意してください。
pdftohtml の最新バージョン (0.40a ベータ版を含む) を試しましたが、役に立ちませんでした。
試してみる価値のある Linux 互換の同等品を知っている人はいますか?
ありがとう、
サム
php - マルチページPDFのJavascriptベースの水平スクロール?
JavaScript を使用して PDF のページの水平スクロールをどのように達成できるのか疑問に思っています。次のほうがよいですか。
- PDF のページを HTML ファイルに変換し、src="...each page.html" の iframe の間を左右にクリックしますか?
- PDF のページを iframe 以外の HTML 要素 (DIV など) に変換し、各ページのコンテンツを含む要素の間を左右にクリックします。
PDFのテキストが検索可能であることを確認したいので、そのページを画像にしたくありません。また、1 つの Web ページに複数の iframe を配置するというフォーマットの問題があるため、iframe の使用にも懐疑的です。「PDFtoHTML」Linuxベースのソフトウェアを使用してPDFをHTMLに変換した後、このアプローチをすでにテストしましたが、一般的にこれは最適なソリューションではないことがわかりました。
オプション2のようですが、プログラムでPDFを複数のDIVに解析する方法がわかりません。JavaScript の他に、PHP と Linux には精通していますが、解決策を考えるのに役立つ場合は、他の言語には精通していません。
php - PHP shell_exec、-rwxrwxrwxシェルスクリプトを実行するためのアクセス許可が拒否されました
私は現在、ApacheWebサーバーを実行するリモートCentOS5.6システムでsshを使用しています。pdftohtml
残念ながら、現在そのマシンにインストールされていないpopplerバイナリを使用する必要があります。そこで、popplerパッケージをダウンロードして、ユーザーフォルダーの下にビルドしました。IIはシステム管理者ではないので、私はしませんでした
コンパイルしたファイルはすべて下にあります
PHPを介して実行する必要があるファイルshell_exec()
は
ssh bashを介して実行すると、正しい出力が得られます。代わりに、次の行をphpスクリプトに配置します。
次の出力が得られます。
現在-rwxrwxrwxであるファイルパーミッションを777に設定してみました。shell_exec("whoami");
また、使用すると「apache」になることにも気づきました。ファイルのパーミッションが-rwxrwxrwxの場合、apacheはスクリプトを実行できるべきではありませんか?
また、popplerをインストールするmake install
ことで問題が解決することも知っていますが、これはテスト目的であるため、テストが完了するまで、個人用フォルダーの外部でシステムを「汚染」することは避けたいと思います。
助けてくれる人に感謝します!
java - PDF ファイルを単一の HTML ファイルに変換する
JavaでPDFドキュメントを単一のHTMLファイルに変換しようとしています。オンラインのほとんどのコンバーターは、1 つの PDF ファイルを複数の HTML ファイルに変換します。PDF全体を単一のHTMLファイルに変換したい。
助言がありますか?
c# - C# を使用した表形式の PDF から XML へ
表のみを含む PDF ファイルを同等の XML 形式に変換する方法は?