問題タブ [pdf2htmlex]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cmake - 最新バージョンのclangがインストールされているにもかかわらず、コンパイラのC ++ 0xのサポートがないというcmakeの苦情
cmake を使用してpdf2htmlEXをビルドしようとしています
これはエラーメッセージです:
これはclangコンパイラのバージョン番号です
簡単なテストの後、私clang
は をサポートしていないことに気付きました-std=c++0x
。clang を削除し、g++ をインストールしました。関連するバージョン情報は次のとおりです。
非常に簡単なテストを実行しましたが、g++ はc++0x
パラメーターを受け入れることができるようです
Ubuntu 14.04.1 LTS で cmake を実行しています
CMake
そのバージョンはcmake version 2.8.12.2
関連するコードは次のとおりです CMakeLists.txt
私はcmakeが初めてなので、どのチェックが実行されているかを判断する方法がわかりませcheck_cxx_compiler_flag
んcmake
html - pdf2htmlEXでpdfを複数のhtmlファイルに分割
PDF ファイルを個別の HTML ファイルに分割しようとしています。つまり、PDF ページごとに HTML ファイルが必要です。これは私がそれを行う方法です:
その結果、空LMS.html
のファイルと他のファイルが得られました: lms%031.html
, lms%032.html
. 問題は、これらの html ファイルが正しくフォーマットされておらず、CSS スタイルがないことです。
javascript - PDF ファイルからすべてのコンテンツ (テキストだけでなく、表/図も含む) を抽出しますか?
PDF のメイン コンテンツを再フォーマットしたいので、テキストだけでなく、表、図などのメイン コンテンツをレイアウト情報と共に抽出する必要があります。コンテンツの主要部分だけに興味があります。たとえば、技術論文の場合、テキスト、表、および図の列だけに興味があります。余白のヘッダー、フッター、およびテキストは無視できます。
PDF ページからコンテンツ ストリームをスキャンし、それらがテキスト パラグラフであるかその他であるかを認識します。それらがテキスト段落である場合、特定の書式処理を適用することがあります。それらが表や図のようなもの、または段落のようなものでない場合は、そのままにしておくか、新しいディスプレイに収まるように縮小または拡大します.
たとえば、次のストリームでは、テキストを収集し、ページに対するテキストの開始点をメモします。
ストリーム コンテンツの分解を続けて、ドキュメント要素が段落であるかどうかにかかわらず、相対的な位置情報を持つドキュメント要素の配列に整理します (関連するテキストを再フォーマットできるようにするため)。
ストリームを分解して、それらがテキストの段落であるかどうかを判断し、その相対位置を書き留めるだけでも、簡単ではない可能性があると思います。
pdf.js の page.render() が目標を達成するのに役立つ可能性があることがわかりましたが、それをどのように適応させることができるかわかりませんでした。
また、pdf2htmlEx は、PDF ファイルを html に変換できるため、同様のメカニズムを備えている可能性があります。
しかし、上記のツールがどのレベルでレンダリング/変換を行うかはわかりません.画像として直接行う場合、私の目的には役立たないかもしれません.
Android 上の Adobe の PDF ビューアーは、携帯電話の小さな画面で PDF コンテンツをリフローする機能を提供します。完全なコンテンツのキャプチャと、私が望んでいる変換のメカニズムを使用する場合があります。
私の質問は、私の要件をどのように達成できるかについての指針です。
どうもありがとう
pdf - PDFからテキストの場所を取得する
PDFページ内のすべての単語の場所を知りたいです。私はウェブで何かを見つけようとしていましたが、できませんでした。どのライブラリ (できれば Java プラットフォーム) を使用すればよいか、誰か助けてもらえますか?
pdf2htmlex - pdf2htmlEx ツールを使用しているときに、pdf ドキュメントに添付された付箋を取得するにはどうすればよいですか?
オプション--process-annotation 1を使用して、PDF ドキュメントの注釈を表示しました
これはうまくいきます
- ハイライト
- 下線
- 取り消し線
- 長方形の箱
そして、ためではありません
付箋に追加されたメモ- 変換された html にはメモ アイコンのみが含まれます - テキスト/コメントがメモ アイコンに追加されません。
私は何かを忘れましたか?それともこれは問題ですか?誰か親切にこれを整理するのを手伝ってください。
node.js - PDFからデータを抽出する
重複としてマークしないでください。私はすでに多くの Stackoverflow リンクを通過しましたが、問題は解決しませんでした。
私がやろうとしていること:約 1,50,000 の pdf ファイルからデータを抽出する必要があります。
サンプル pdf :これらの pdf はすべて構造が同一で、表形式のデータが含まれています (画像なし)。pdf のスナップショットは次のようになります。
私がやったこと:pdf2htmlEX
ターミナルコマンドを使用Nodejs
してpdfファイルをhtmlに変換しました。
変換された html ファイルは次のようになります。クラス名 x の後に文字が続き、y の後に文字が続く組み合わせは、特定の div に固有のものでした。たとえば。xf
クラスとクラスを持つdivは1つだけでしy10
た。
私が立ち往生している場所:すべてのpdfは形式と構造が同じですが、生成されたhtmlファイルはそうではありません。したがって$(".x14.y30").text()
、pdf-1で何かを提供している可能性があり、pdf-2で何か他のものを提供している可能性があるとしましょう。また、pdfファイルがhtmlに変換されている間にクラスが割り当てられている方法を変更できる方法を探しました. しかし、すべて無駄です。抽出されたデータは、タブ区切り形式で保存する必要があります。
このアプローチの使用は必須ではありません。より良い提案は大歓迎です。
html - pdf2htmlEx ツールを使用した pdf から html への変換中のフォントのずれ
PDF から HTML への変換でのフォントの問題
- 「ti」、「fi」、「tt」の文字がすべて欠落しています
- フォントの重複の問題
- 注: Firefox ではこの問題は発生しません。Safariブラウザのクロムで上記の問題を取得する
私は使っている
- pdf2htmlEX の0.13.6バージョンを使用する
- 次のコマンドを使用して pdf を html に変換します
pdf2htmlEX --split-pages 1 --zoom 3 --fit-width 920 --correct-text-visibility 1 --dest-dir $1 $2 2>&1
試した
--fallback 1オプションを使用すると、上記の問題がすべて解決されます。しかし
- フォールバック オプションは、ドキュメントの明瞭性を低下させます。
- ページ内の表が消え、空のスペースに置き換わります。
疑問
フォールバックについてもう少し説明していただけますか?
上記のものを試しました(フォールバックを使用)。フォントに関する上記の問題を解決する別のアプローチを好む場合は、私に提案してください。
上記の問題は chrome と safari で発生しますが、Firefox では正常に動作しています。
html - pdf2htmlEX を使用して複数のファイルを変換する
複数のファイルまたはpdfファイルを含むフォルダーでpdf2htmlEXをどのように使用しますか?
単一のファイルを問題なく変換できますが、100 個のファイルに対してコマンドを 100 回実行したくないことは明らかです。
ドキュメントには何も見つかりませんでした。「*.pdf」のようなものは機能しません。
ありがとう!