“pdf2htmlex”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

278 参照

cmake - 最新バージョンのclangがインストールされているにもかかわらず、コンパイラのC ++ 0xのサポートがないというcmakeの苦情

cmake を使用してpdf2htmlEXをビルドしようとしています

これはエラーメッセージです：

これはclangコンパイラのバージョン番号です

簡単なテストの後、私clangはをサポートしていないことに気付きました-std=c++0x。clang を削除し、g++ をインストールしました。関連するバージョン情報は次のとおりです。

非常に簡単なテストを実行しましたが、g++ はc++0xパラメーターを受け入れることができるようです

Ubuntu 14.04.1 LTS で cmake を実行しています

CMake

そのバージョンはcmake version 2.8.12.2

関連するコードは次のとおりです CMakeLists.txt

私はcmakeが初めてなので、どのチェックが実行されているかを判断する方法がわかりませcheck_cxx_compiler_flagんcmake

2014-09-29T00:57:01.860

0 投票する

1 に答える

1210 参照

html - pdf2htmlEXでpdfを複数のhtmlファイルに分割

PDF ファイルを個別の HTML ファイルに分割しようとしています。つまり、PDF ページごとに HTML ファイルが必要です。これは私がそれを行う方法です：

その結果、空LMS.htmlのファイルと他のファイルが得られました: lms%031.html, lms%032.html. 問題は、これらの html ファイルが正しくフォーマットされておらず、CSS スタイルがないことです。

html pdf pdf2htmlex

2014-10-14T12:25:22.377

0 投票する

0 に答える

1020 参照

javascript - PDF ファイルからすべてのコンテンツ (テキストだけでなく、表/図も含む) を抽出しますか?

PDF のメインコンテンツを再フォーマットしたいので、テキストだけでなく、表、図などのメインコンテンツをレイアウト情報と共に抽出する必要があります。コンテンツの主要部分だけに興味があります。たとえば、技術論文の場合、テキスト、表、および図の列だけに興味があります。余白のヘッダー、フッター、およびテキストは無視できます。

PDF ページからコンテンツストリームをスキャンし、それらがテキストパラグラフであるかその他であるかを認識します。それらがテキスト段落である場合、特定の書式処理を適用することがあります。それらが表や図のようなもの、または段落のようなものでない場合は、そのままにしておくか、新しいディスプレイに収まるように縮小または拡大します.

たとえば、次のストリームでは、テキストを収集し、ページに対するテキストの開始点をメモします。

ストリームコンテンツの分解を続けて、ドキュメント要素が段落であるかどうかにかかわらず、相対的な位置情報を持つドキュメント要素の配列に整理します (関連するテキストを再フォーマットできるようにするため)。

ストリームを分解して、それらがテキストの段落であるかどうかを判断し、その相対位置を書き留めるだけでも、簡単ではない可能性があると思います。

pdf.js の page.render() が目標を達成するのに役立つ可能性があることがわかりましたが、それをどのように適応させることができるかわかりませんでした。

また、pdf2htmlEx は、PDF ファイルを html に変換できるため、同様のメカニズムを備えている可能性があります。

しかし、上記のツールがどのレベルでレンダリング/変換を行うかはわかりません.画像として直接行う場合、私の目的には役立たないかもしれません.

Android 上の Adobe の PDF ビューアーは、携帯電話の小さな画面で PDF コンテンツをリフローする機能を提供します。完全なコンテンツのキャプチャと、私が望んでいる変換のメカニズムを使用する場合があります。

私の質問は、私の要件をどのように達成できるかについての指針です。

どうもありがとう

javascript pdf clojure pdf.js pdf2htmlex

2015-08-05T15:26:57.923

0 投票する

2 に答える

351 参照

pdf - PDFからテキストの場所を取得する

PDFページ内のすべての単語の場所を知りたいです。私はウェブで何かを見つけようとしていましたが、できませんでした。どのライブラリ (できれば Java プラットフォーム) を使用すればよいか、誰か助けてもらえますか?

pdf itext pdfbox pdf2htmlex

2015-12-08T11:01:23.783

0 投票する

0 に答える

71 参照

pdf2htmlex - pdf2htmlEx ツールを使用しているときに、pdf ドキュメントに添付された付箋を取得するにはどうすればよいですか?

オプション--process-annotation 1を使用して、PDF ドキュメントの注釈を表示しました

これはうまくいきます

ハイライト
下線
取り消し線
長方形の箱

そして、ためではありません

付箋に追加されたメモ- 変換された html にはメモアイコンのみが含まれます - テキスト/コメントがメモアイコンに追加されません。

私は何かを忘れましたか？それともこれは問題ですか？誰か親切にこれを整理するのを手伝ってください。

pdf2htmlex

2016-03-03T10:42:35.927

0 投票する

0 に答える

1766 参照

node.js - PDFからデータを抽出する

重複としてマークしないでください。私はすでに多くの Stackoverflow リンクを通過しましたが、問題は解決しませんでした。

私がやろうとしていること:約 1,50,000 の pdf ファイルからデータを抽出する必要があります。

サンプル pdf :これらの pdf はすべて構造が同一で、表形式のデータが含まれています (画像なし)。pdf のスナップショットは次のようになります。

私がやったこと：pdf2htmlEXターミナルコマンドを使用Nodejsしてpdfファイルをhtmlに変換しました。

変換された html ファイルは次のようになります。クラス名 x の後に文字が続き、y の後に文字が続く組み合わせは、特定の div に固有のものでした。たとえば。xfクラスとクラスを持つdivは1つだけでしy10た。

私が立ち往生している場所：すべてのpdfは形式と構造が同じですが、生成されたhtmlファイルはそうではありません。したがって$(".x14.y30").text()、pdf-1で何かを提供している可能性があり、pdf-2で何か他のものを提供している可能性があるとしましょう。また、pdfファイルがhtmlに変換されている間にクラスが割り当てられている方法を変更できる方法を探しました. しかし、すべて無駄です。抽出されたデータは、タブ区切り形式で保存する必要があります。

このアプローチの使用は必須ではありません。より良い提案は大歓迎です。

node.js pdf text-extraction pdf2htmlex

2016-03-26T09:52:01.417

0 投票する

1 に答える

756 参照

html - pdf2htmlEx ツールを使用した pdf から html への変換中のフォントのずれ

PDF から HTML への変換でのフォントの問題

「ti」、「fi」、「tt」の文字がすべて欠落しています

サンプルのスクリーンショット

フォントの重複の問題

サンプルのスクリーンショット

注: Firefox ではこの問題は発生しません。Safariブラウザのクロムで上記の問題を取得する

私は使っている

pdf2htmlEX の0.13.6バージョンを使用する
次のコマンドを使用して pdf を html に変換します

pdf2htmlEX --split-pages 1 --zoom 3 --fit-width 920 --correct-text-visibility 1 --dest-dir $1 $2 2>&1

試した

--fallback 1オプションを使用すると、上記の問題がすべて解決されます。しかし

フォールバックオプションは、ドキュメントの明瞭性を低下させます。
ページ内の表が消え、空のスペースに置き換わります。

疑問

フォールバックについてもう少し説明していただけますか？

上記のものを試しました（フォールバックを使用）。フォントに関する上記の問題を解決する別のアプローチを好む場合は、私に提案してください。

上記の問題は chrome と safari で発生しますが、Firefox では正常に動作しています。

html css google-chrome safari pdf2htmlex

2016-04-26T14:44:05.787

0 投票する

1 に答える

457 参照

html - pdf2htmlEX を使用して複数のファイルを変換する

複数のファイルまたはpdfファイルを含むフォルダーでpdf2htmlEXをどのように使用しますか?

単一のファイルを問題なく変換できますが、100 個のファイルに対してコマンドを 100 回実行したくないことは明らかです。

ドキュメントには何も見つかりませんでした。「*.pdf」のようなものは機能しません。

ありがとう！

html pdf pdf-to-html pdf2htmlex

2016-08-05T00:33:10.067

問題タブ [pdf2htmlex]

Reference