問題タブ [pdf-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - PDF コンテンツ コードを "(<0034>) Tj" のような型に変換するにはどうすればよいですか?
PDF コンテンツは、"(abc) Tj"、"(<0035><0035>) Tj"、または "\u065" といういくつかの方法で保存されます。
直接テキスト「(abc) Tj」、16 進数「(<0035><0035>) Tj」、または 8 進数「\u065」に関係なく、PDF コードを 1 つのタイプに変換する方法があるかどうかを知りたいです。
PDF を 1 つのタイプに変換してエンコードすると、コンテンツの分析が容易になると思います。
Ghostscriptなどを使用してそれを行うことは可能ですか? ありがとう
java - Itext - イメージの幅をインチ単位で誤って取得する
私は以下の機能を使用しています
フォトショップで画像サイズを確認すると、高さと幅がピクセル単位で完全に取得されますが、幅と高さがインチ単位で正しく取得されません。
画像の DPI を計算できるようにするために必要です。
例:
画像の元の値: 幅 - 450 ピクセル、高さ - 362 ピクセル
幅 - 6.25 インチ、高さ - 5.028 インチ (Photoshop から取得した値)
私がitextから受け取るもの:
幅 - 450 ピクセル、高さ - 362 ピクセル (これで完璧です)
幅 -3.60 インチ、高さ - 2.90 インチ (ここに問題があります)
java - 画像の極端な右、左、上、下の位置を取得する - Itext
PDFの余白を設定して、ページの内容が余白を超えているかどうかを確認しています。
ページの内容が単なるテキストであれば、私はそれを簡単に行うことができます。
これが私がやっていることです:
を使用してTextMarginFinder
います。本のサイズに基づいて pdfの値を設定します。left margin
それfinder.getLlx();
以来finder.getLlx();
、そのページのテキストの一番左の位置を取得します。
ただし、ページに画像が含まれている場合、これは機能しません。画像はマージンの外に出ますが、finder.getLlx();
関数はテキストに対してのみ機能するように見えるため、上記のコードではエラーは発生しません。
2 つの質問:
1) pdf でページをループしているときに、そのページに画像がある場合、その特定のページに画像が含まれているかどうかを確認するにはどうすればよいですか?
2) 画像が含まれている場合、その極端な位置を取得するにはどうすればよいですか?
mkl
提案後に更新
python - Python:画像付きのPDFを解析
テキストを含み、画像を含む場合と含まない場合があるいくつかのpdfファイルを解析したいと考えています。さらに処理するためにテキスト部分を文字列として抽出し、画像を jpeg/png またはその他の画像形式として保存したいと考えています。作業するのに最適なモジュールは何ですか?
php - PHP PDFパーサーの空白の単語
PDFファイルの解析にこのPDFParserを使用しています。突然、ファイルの 1 つが単語の空白で解析されました。たとえば、
月曜日
、しかしそれは次のように解析されました
月曜日
また
チキン
なので
チキン
PDFリーダーからテキストを選択して別の場所にコピーすると、これらの奇妙な空白はありません。ライブラリにバグがありますか、それとも pdf に隠し文字がありますか。どのように修理できますか?
編集:週替わりメニューへのリンクがあります。この PDF ファイルはチェコ語で書かれているため、たとえば word があります。
ポンデリー
次のようになります。
ポンデリ
また
Kuřecí
次のようにする必要があります。
クシェチ
これらすべての空白がアクセント付きの文字の周りにあることがわかりますが、常にそうとは限りません.
今週以降に変更される可能性があり、新しいメニューにはこれらの空白がなくなる可能性があることを警告します.
python - pypdf2を使用したPDF解析
pypdf2 を使用して pdf ファイルを解析しているときに、改行で mm-dd-yy のようなハイフン化された単語を次のように読み取ります。
んん
-
dd
-
yy
これは私のコードです:
これを克服して同じ行に印刷するにはどうすればよいですか?