問題タブ [pdf-parsing]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

153 問題

0 投票する

1 に答える

364 参照

java - Itext を使用して、フォントが PDF に埋め込まれていない場所またはページを見つけます。

ライブラリを使用Itextして PDF を操作しています。

この例http://developers.itextpdf.com/examples/itext-action-second-edition/chapter-16#616-listusedfonts.javaを使用して、PDF に埋め込まれていないフォントを見つけています。

ライブラリには、フォントが PDF に埋め込まれていない正確な場所を確認するオプションが用意されていますか?

2016-03-02T07:23:12.603

0 投票する

1 に答える

111 参照

.net - .net を使用して Pdf 要素を抽出する

無料/有料の .net ライブラリを探して、特定の Acrobat (.pdf) ドキュメントのテキスト/グラフィック/画像要素をできればオブジェクトモデルとして抽出し、独自の WYSIWYG エディターが理解できる別の形式に変換できるようにします。

直接翻訳が不可能な場合は、テキスト要素、形状/グラフィック、画像を個別に取得するためにどのようなアプローチが可能かを確認したいと思います. ターゲット形式では、ページ上の x、y 位置を使用して要素を明示的に配置する必要があり、PDF 抽出ライブラリがページ内の解析された要素の座標を通知する必要があります。

どんな提案でも大歓迎です。

.net pdf acrobat object-model pdf-parsing

2016-03-24T21:59:54.933

0 投票する

1 に答える

2590 参照

python - Pythonで特定の見出しを持つPDFからデータを抽出する

PythonでPDFファイルを解析したかったのです。私の要件を説明できない PDFMiner の例を見てきました。

たとえば、履歴書を解析したい場合、要約、経験、趣味などのさまざまなフィールドが含まれています。

私は経験のみを抽出することに興味があり、この経験フィールドは 1 位または 2 位、または任意の場所にあります。経験フィールドがどこにあるかを特定し、データを抽出する必要があります。

これどうやってするの？

python parsing pdf pdfminer pdf-parsing

2016-06-07T09:16:21.163

0 投票する

1 に答える

808 参照

php - smalot pdfparserを使用してpdfのフォントの詳細を取得するには?

PDFの解析にsmalot pdfparserを使用しています。解析中に、フォントファミリ、フォントサイズなどのフォントの詳細を取得しようとしています。このAPI Docによると、getFonts および getFont メソッドについて言及されています。私はそれを取得しようとしていますが、いくつかのオブジェクトを取得しています。詳細については、このリンクをたどってください。これは私が使用しているコードです

何かお気づきの点がございましたら、お気軽にお問い合わせください。または、これを達成する他の方法はありますか?

php pdf pdf-parsing

2016-08-10T03:21:25.883

0 投票する

6 に答える

5920 参照

python - struct.error: unpack には長さ 16 の文字列引数が必要です

pdfminer (pdf2txt.py) でPDFファイル (2.pdf)を処理しているときに、次のエラーを受け取りました。

同様のファイル (1.pdf)は問題を引き起こしません。

エラーに関する情報が見つかりません。pdfminer GitHub リポジトリにイシューを追加しましたが、未回答のままでした。なぜこれが起こっているのか誰かが私に説明できますか? 2.pdfを解析するにはどうすればよいですか?

更新: GitHub リポジトリから直接pdfminer をインストールした後ではBytesIOなく、同様のエラーが発生します。StringIO

python pdf pdftotext pdfminer pdf-parsing

2016-10-20T15:28:22.280

0 投票する

1 に答える

3797 参照

java - Jsoup.parse が終了タグを削除しないようにする

Jsoup.parse を使用して html を解析しています。

他のすべては素晴らしいですが、後でpdfコンバーターでこのhtmlを解析することになっています。

何らかの理由で Jsoup.parse が終了タグを削除し、pdf-parser が img 終了タグがないという例外をスローします。

Jsoup.parse が終了 img タグを削除しないようにするにはどうすればよいですか?

たとえば、この行：

次のようになります。

同じことが起こります：

コードは次のとおりです。

上記のメソッドで呼び出される tidyUpHTML メソッドは次のとおりです。

java jsoup html-parsing pdf-parsing

2016-12-08T13:23:15.850

0 投票する

0 に答える

622 参照

python-2.7 - Pythonを使用してPDFの行を読む

要件 - コード - テストのトレースマトリックスを提供するプログラムを作成しようとしています。

PDFから要件タグを1行ずつ読み取ることができません。

以下は私が試したプログラムです。

PDFの内容は以下のようになります

また、一部のコンテンツがテーブル内にある場合もあります sy 以下のエントリはテーブル内にあります

このような検索の目的は、「{CSD-PROS-PLN-003}」として最上位の要件を取得し、この要件から派生した要件/実装/テストの他の PDF / コード / テストを検索することです。

ありがとう

python-2.7 parsing pdf pypdf pdf-parsing

2017-01-06T14:19:34.707

1 2 3 4 5 6 7 8 9 10

問題タブ [pdf-parsing]

Reference