問題タブ [pdf2htmlex]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
278 参照

cmake - 最新バージョンのclangがインストールされているにもかかわらず、コンパイラのC ++ 0xのサポートがないというcmakeの苦情

cmake を使用してpdf2htmlEXをビルドしようとしています

これはエラーメッセージです:

これはclangコンパイラのバージョン番号です

簡単なテストの後、私clangは をサポートしていないことに気付きました-std=c++0x。clang を削除し、g++ をインストールしました。関連するバージョン情報は次のとおりです。

非常に簡単なテストを実行しましたが、g++ はc++0xパラメーターを受け入れることができるようです

Ubuntu 14.04.1 LTS で cmake を実行しています

CMake

そのバージョンはcmake version 2.8.12.2

関連するコードは次のとおりです CMakeLists.txt

私はcmakeが初めてなので、どのチェックが実行されているかを判断する方法がわかりませcheck_cxx_compiler_flagcmake

0 投票する
1 に答える
1210 参照

html - pdf2htmlEXでpdfを複数のhtmlファイルに分割

PDF ファイルを個別の HTML ファイルに分割しようとしています。つまり、PDF ページごとに HTML ファイルが必要です。これは私がそれを行う方法です:

その結果、空LMS.htmlのファイルと他のファイルが得られました: lms%031.html, lms%032.html. 問題は、これらの html ファイルが正しくフォーマットされておらず、CSS スタイルがないことです。

0 投票する
0 に答える
1020 参照

javascript - PDF ファイルからすべてのコンテンツ (テキストだけでなく、表/図も含む) を抽出しますか?

PDF のメイン コンテンツを再フォーマットしたいので、テキストだけでなく、表、図などのメイン コンテンツをレイアウト情報と共に抽出する必要があります。コンテンツの主要部分だけに興味があります。たとえば、技術論文の場合、テキスト、表、および図の列だけに興味があります。余白のヘッダー、フッター、およびテキストは無視できます。

PDF ページからコンテンツ ストリームをスキャンし、それらがテキスト パラグラフであるかその他であるかを認識します。それらがテキスト段落である場合、特定の書式処理を適用することがあります。それらが表や図のようなもの、または段落のようなものでない場合は、そのままにしておくか、新しいディスプレイに収まるように縮小または拡大します.

たとえば、次のストリームでは、テキストを収集し、ページに対するテキストの開始点をメモします。

ストリーム コンテンツの分解を続けて、ドキュメント要素が段落であるかどうかにかかわらず、相対的な位置情報を持つドキュメント要素の配列に整理します (関連するテキストを再フォーマットできるようにするため)。

ストリームを分解して、それらがテキストの段落であるかどうかを判断し、その相対位置を書き留めるだけでも、簡単ではない可能性があると思います。

pdf.js の page.render() が目標を達成するのに役立つ可能性があることがわかりましたが、それをどのように適応させることができるかわかりませんでした。

また、pdf2htmlEx は、PDF ファイルを html に変換できるため、同様のメカニズムを備えている可能性があります。

しかし、上記のツールがどのレベルでレンダリング/変換を行うかはわかりません.画像として直接行う場合、私の目的には役立たないかもしれません.

Android 上の Adob​​e の PDF ビューアーは、携帯電話の小さな画面で PDF コンテンツをリフローする機能を提供します。完全なコンテンツのキャプチャと、私が望んでいる変換のメカニズムを使用する場合があります。

私の質問は、私の要件をどのように達成できるかについての指針です。

どうもありがとう

0 投票する
2 に答える
351 参照

pdf - PDFからテキストの場所を取得する

PDFページ内のすべての単語の場所を知りたいです。私はウェブで何かを見つけようとしていましたが、できませんでした。どのライブラリ (できれば Java プラットフォーム) を使用すればよいか、誰か助けてもらえますか?

0 投票する
0 に答える
71 参照

pdf2htmlex - pdf2htmlEx ツールを使用しているときに、pdf ドキュメントに添付された付箋を取得するにはどうすればよいですか?

オプション--process-annotation 1を使用して、PDF ドキュメントの注釈を表示しました

これはうまくいきます

  • ハイライト
  • 下線
  • 取り消し線
  • 長方形の箱

そして、ためではありません

  • 付箋に追加されたメモ- 変換された html にはメモ アイコンのみが含まれます - テキスト/コメントがメモ アイコンに追加されません。

私は何かを忘れましたか?それともこれは問題ですか?誰か親切にこれを整理するのを手伝ってください。

0 投票する
0 に答える
1766 参照

node.js - PDFからデータを抽出する

重複としてマークしないでください。私はすでに多くの Stackoverflow リンクを通過しましたが、問題は解決しませんでした。

私がやろうとしていること:約 1,50,000 の pdf ファイルからデータを抽出する必要があります。

サンプル pdf :これらの pdf はすべて構造が同一で、表形式のデータが含まれています (画像なし)。pdf のスナップショットは次のようになります。

ここに画像の説明を入力

私がやったこと:pdf2htmlEXターミナルコマンドを使用Nodejsしてpdfファイルをhtmlに変換しました。

変換された html ファイルは次のようになります。クラス名 x の後に文字が続き、y の後に文字が続く組み合わせは、特定の div に固有のものでした。たとえば。xfクラスとクラスを持つdivは1つだけでしy10た。

ここに画像の説明を入力

私が立ち往生している場所:すべてのpdfは形式と構造が同じですが、生成されたhtmlファイルはそうではありません。したがって$(".x14.y30").text()、pdf-1で何かを提供している可能性があり、pdf-2で何か他のものを提供している可能性があるとしましょう。また、pdfファイルがhtmlに変換されている間にクラスが割り当てられている方法を変更できる方法を探しました. しかし、すべて無駄です。抽出されたデータは、タブ区切り形式で保存する必要があります。

このアプローチの使用は必須ではありません。より良い提案は大歓迎です。

0 投票する
1 に答える
756 参照

html - pdf2htmlEx ツールを使用した pdf から html への変換中のフォントのずれ

PDF から HTML への変換でのフォントの問題

  1. 「ti」、「fi」、「tt」の文字がすべて欠落しています

サンプルのスクリーンショット

  1. フォントの重複の問題

サンプルのスクリーンショット

  • 注: Firefox ではこの問題は発生しません。Safariブラウザのクロムで上記の問題を取得する

私は使っている

  • pdf2htmlEX の0.13.6バージョンを使用する
  • 次のコマンドを使用して pdf を html に変換します

pdf2htmlEX --split-pages 1 --zoom 3 --fit-width 920 --correct-text-visibility 1 --dest-dir $1 $2 2>&1

試した

--fallback 1オプションを使用すると、上記の問題がすべて解決されます。しかし

  1. フォールバック オプションは、ドキュメントの明瞭性を低下させます。
  2. ページ内の表が消え、空のスペースに置き換わります。

疑問

  1. フォールバックについてもう少し説明していただけますか?

  2. 上記のものを試しました(フォールバックを使用)。フォントに関する上記の問題を解決する別のアプローチを好む場合は、私に提案してください。

上記の問題は chrome と safari で発生しますが、Firefox では正常に動作しています。

0 投票する
1 に答える
457 参照

html - pdf2htmlEX を使用して複数のファイルを変換する

複数のファイルまたはpdfファイルを含むフォルダーでpdf2htmlEXをどのように使用しますか?

単一のファイルを問題なく変換できますが、100 個のファイルに対してコマンドを 100 回実行したくないことは明らかです。

ドキュメントには何も見つかりませんでした。「*.pdf」のようなものは機能しません。

ありがとう!