問題タブ [pdf-parsing]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

153 問題

0 投票する

1 に答える

266 参照

pdf - PDF コンテンツコードを "(<0034>) Tj" のような型に変換するにはどうすればよいですか?

PDF コンテンツは、"(abc) Tj"、"(<0035><0035>) Tj"、または "\u065" といういくつかの方法で保存されます。

直接テキスト「(abc) Tj」、16 進数「(<0035><0035>) Tj」、または 8 進数「\u065」に関係なく、PDF コードを 1 つのタイプに変換する方法があるかどうかを知りたいです。

PDF を 1 つのタイプに変換してエンコードすると、コンテンツの分析が容易になると思います。

Ghostscriptなどを使用してそれを行うことは可能ですか? ありがとう

2015-08-22T00:45:18.870

0 投票する

0 に答える

990 参照

java - Itext - イメージの幅をインチ単位で誤って取得する

私は以下の機能を使用しています

フォトショップで画像サイズを確認すると、高さと幅がピクセル単位で完全に取得されますが、幅と高さがインチ単位で正しく取得されません。

画像の DPI を計算できるようにするために必要です。

例:

画像の元の値: 幅 - 450 ピクセル、高さ - 362 ピクセル

幅 - 6.25 インチ、高さ - 5.028 インチ (Photoshop から取得した値)

私がitextから受け取るもの：

幅 - 450 ピクセル、高さ - 362 ピクセル (これで完璧です)

幅 -3.60 インチ、高さ - 2.90 インチ (ここに問題があります)

java pdf itext pdf-parsing

2015-08-24T12:01:58.627

0 投票する

1 に答える

1686 参照

java - 画像の極端な右、左、上、下の位置を取得する - Itext

PDFの余白を設定して、ページの内容が余白を超えているかどうかを確認しています。

ページの内容が単なるテキストであれば、私はそれを簡単に行うことができます。

これが私がやっていることです：

を使用してTextMarginFinderいます。本のサイズに基づいて pdfの値を設定します。left marginそれfinder.getLlx();以来finder.getLlx();、そのページのテキストの一番左の位置を取得します。

ただし、ページに画像が含まれている場合、これは機能しません。画像はマージンの外に出ますが、finder.getLlx();関数はテキストに対してのみ機能するように見えるため、上記のコードではエラーは発生しません。

2 つの質問:

1) pdf でページをループしているときに、そのページに画像がある場合、その特定のページに画像が含まれているかどうかを確認するにはどうすればよいですか?

2) 画像が含まれている場合、その極端な位置を取得するにはどうすればよいですか?

mkl提案後に更新

java pdf itext pdf-parsing pdfrenderer

2015-09-04T09:23:11.860

0 投票する

1 に答える

1116 参照

python - Python：画像付きのPDFを解析

テキストを含み、画像を含む場合と含まない場合があるいくつかのpdfファイルを解析したいと考えています。さらに処理するためにテキスト部分を文字列として抽出し、画像を jpeg/png またはその他の画像形式として保存したいと考えています。作業するのに最適なモジュールは何ですか?

python pdf-parsing

2015-09-20T20:32:43.250

0 投票する

0 に答える

200 参照

php - PHP PDFパーサーの空白の単語

PDFファイルの解析にこのPDFParserを使用しています。突然、ファイルの 1 つが単語の空白で解析されました。たとえば、

月曜日

、しかしそれは次のように解析されました

月曜日

また

チキン

なので

チキン

PDFリーダーからテキストを選択して別の場所にコピーすると、これらの奇妙な空白はありません。ライブラリにバグがありますか、それとも pdf に隠し文字がありますか。どのように修理できますか？

編集:週替わりメニューへのリンクがあります。この PDF ファイルはチェコ語で書かれているため、たとえば word があります。

ポンデリー

次のようになります。

ポンデリ

また

Kuřecí

次のようにする必要があります。

クシェチ

これらすべての空白がアクセント付きの文字の周りにあることがわかりますが、常にそうとは限りません.

今週以降に変更される可能性があり、新しいメニューにはこれらの空白がなくなる可能性があることを警告します.

php pdf pdf-parsing

2016-02-08T10:39:40.027

0 投票する

0 に答える

1326 参照

python - pypdf2を使用したPDF解析

pypdf2 を使用して pdf ファイルを解析しているときに、改行で mm-dd-yy のようなハイフン化された単語を次のように読み取ります。

んん

これは私のコードです：

これを克服して同じ行に印刷するにはどうすればよいですか?

python pdf pypdf pdf-parsing

2016-02-15T04:43:58.240

1 2 3 4 5 6 7 8 9 10

問題タブ [pdf-parsing]

pdf - PDF コンテンツ コードを "(<0034>) Tj" のような型に変換するにはどうすればよいですか?

java - Itext - イメージの幅をインチ単位で誤って取得する

java - 画像の極端な右、左、上、下の位置を取得する - Itext

python - Python：画像付きのPDFを解析

php - PHP PDFパーサーの空白の単語

python - pypdf2を使用したPDF解析

Reference

pdf - PDF コンテンツコードを "(<0034>) Tj" のような型に変換するにはどうすればよいですか?