問題タブ [pdf-to-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
2205 参照

pdf - 情報抽出のための PDF から HTML および OCR へのソリューション

PDF から HTML へのソリューション、およびクラウドまたは SDK 形式の OCR サービスを探しています。検索した結果、インターネットにはたくさんのサービスがあることがわかりました。それらのいくつかを試してみて、いくつかのアイデアを得ました。このようなサービスを利用している方がいらっしゃいましたら教えていただきたいです。

私の最大の関心事は、情報抽出で使用できる HTML 出力を持つ自動化構造を持つことです。テーブルのような構造化データを出力したい。(ほとんどのサービスは、-character 形式 (各文字の CSS/HTML タグ) または -paragraph 形式 (各行の CSS/HTML) で HTML 出力を提供します。

私はこれまでにチェックしました:

  • Abbyy Cloud SDK (彼らには PDF から HTML へのサービスはありませんが、XSLT サポートを使用して HTML に変換できる PDF から XML へのサービスはありません (おそらく)。テキスト出力を備えた OCR サービスも非常に優れています)
  • cloudconvert.org (poppler-Xpdf3.0 に基づく Ubuntu pdftohtml コマンドと同じ結果を提供しています)
  • pdftohtml コマンド (Ubuntu でテスト済み) - < p > でいっぱいの結果が得られました。
  • aspose.PDF (クラウドに PDF から HTML へのサービスはありませんが、GDrive、Dropbox、Amazon s3 との統合は良好です。
  • PDFTron の PdfNET : CSS と HTML の構造が複雑で、ほぼ 1 文字あたりのタグで結果が得られました。

私の質問は、データ抽出のために構造的な HTML 出力を試して取得する価値のある他のサービスを知っているかどうかです。

前もって感謝します。

0 投票する
2 に答える
1136 参照

pdf-generation - HiqPdf レンダリング / レイアウト エンジン

私の会社ではしばらくの間 HiqPdf を使用しており、どのレンダリング エンジン HiqPdf がその html を解析するかについて話し合いました。HiqPdf 自体の Web サイトでも、stackoverflow でも見つかりませんでした。

http://www.hiqpdf.com/

私はWebkitを疑っていますが、これを確実に知っている人はいますか?

0 投票する
2 に答える
13327 参照

pdf - PDF からテーブル データを抽出する

PDF ファイルからテーブルを抽出する一貫した方法はありますか? ツールはありますか?

私がこれまでに行ったこと:

  • pdftotextツールを試してみました。HTML レイアウトに変換するオプションがあります。

これの問題は何ですか:

  • テーブル情報は HTML 出力に保持されません
  • タグを期待<table>していましたが、すべてが<p>タグの下にありました。

表の構造を示すマーカーは PDF ドキュメントに含まれますか? のよう<table>に、<tr>そして<td>HTML で?

「はい」の場合、これへのポインタは役に立ちます。「いいえ」の場合、この事実に関する明確な情報も役立ちます。

0 投票する
0 に答える
60 参照

javascript - PDFからのスライドショー

Googleまたはhakimフレームワークによるhtml5slides が複数ページのpdfでも機能することを誰かが知っている場合? スライドショーを実行したいのですが、多くの pdf ファイルに基づいています。1ページの場合もあれば、複数ページの場合もあります。各ページは、スライド ショーの 1 つのスライドである必要があります。

前もって感謝します。

0 投票する
2 に答える
1936 参照

java - JavaのAPIを使用したPDFからHtmlへの変換

画像グラフであっても、サイズの大きい PDF ファイルを正しいフォーマットで HTML に変換したい。asposeで試してみましたが、10ページのPDFファイルから2ページしか変換できませんでした。大きなPDFをHTMLに変換するためのJavaの良いAPIを教えてください。

0 投票する
1 に答える
2904 参照

c# - PDF ドキュメントからのテーブルの抽出

PDF大学のプロジェクトで C# を使用して、プログラムでドキュメント内のテーブルを抽出したいと考えています。私はよく知っていitextsharpます。

  1. でテーブルを抽出する方法はありitextsharpますか?

  2. この目的で使用できる他の無料のライブラリはありますか?

  3. PDFタグを抽出するために を XML/HTML に変換できますか? もしそうなら、 HTML 変換に<table>使用できる無料のライブラリはありますか?PDF

    また

これに適した解決策を教えてください..

0 投票する
0 に答える
181 参照

bash - フォルダー編成を使用したpdftohtmlのbashスクリプト(癖)

これは私が助けが必要だと思うコードです:
find . -name "*.png" -exec mv "{}" ./"$1"-dir \;

bash関数でpdftohtmlを使用して、大量のpdf(数千)を独自のフォルダーに入れます。

残念ながら、pdftohtml は画像を pdf のグループと同じフォルダーに保存します。私は今近づいていますが、すべての .png を適切なフォルダーに移動するのに助けが必要です。

このコードは、何らかの理由で、最後に作成されたフォルダーのみにすべての pdf 画像を保存します。

ご清聴ありがとうございました!

0 投票する
2 に答える
1649 参照

pdf - 動的な値を使用して pdf テンプレートを作成する方法

1 か月前からこのタスクに行き詰まっているので、最後のオプションは、クエリをスタック オーバーフローに投稿することです。PDF テンプレートを作成できる PDF 作成ツールを見つけなければなりません。また、SQL サーバーなどのデータ ソースを割り当てることもできます。これにより、SQL サーバーの動的データが pdf テンプレート タグの値を置き換えることができます。Foxit や bulzip などの多くのツールを試しました。しかし、どのツールも私の要件を満たしていません。私はこのタスクに完全に行き詰まったと言わざるを得ません。だから私に適切な解決策を教えてください。迅速な対応に感謝いたします。