問題タブ [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
3353 参照

python - Python PDFMiner エラー:「/Root オブジェクトがありません! - これは本当に PDF ですか?」

「No /Root object! - これは本当に PDF ですか?」というエラーが表示されます。Python 2.7 とPDFMinerバージョン 20110515 を搭載した MAC コンピュータを使用しています。同じファイルを含む同じプログラムが PC コンピュータで動作するため、pdf ファイルは破損していません。また、私は多くのpdfを試しましたが、このエラーはそれらすべてに存在します。このエラーが発生しないようにするには、MAC で何を変更する必要があるかについてのアイデアはありますか?

0 投票する
1 に答える
2241 参照

java - 間違ったエンコーディングでの PDFTextStripper の解析

結果には次のようなものが含まれます

それ以外の

エンコーディングを windows-1252 または utf-8 に変更しても結果は変わりません。不正な pdf の URL http://www.permaco.ch/fileadmin/user_upload/jobs/Inserat_SeLe_EE_rev.pdf

このpdfを解析するには?

0 投票する
0 に答える
3491 参照

scala - PDF 解析エラーを解決する方法

スカラコード:

ここで、file は pdf ファイルを参照しています。path は pdf ファイルのアドレス、name はファイルの名前です。

通常、問題なく実行されますが、一部の pdf ファイルでは、5 行目で次のようにエラーがスローされます。

この pdf ファイルの形式または内容に問題があると思われます。このpdfファイルで名前を付けて保存を使用して別のpdfファイルを作成し、その新しく作成されたpdfファイルを使用すると、正常に機能しました。

では、この問題を解決して、適切なファイルまたは不良ファイルのどちらを使用しても、コードが正常に動作するようにするにはどうすればよいですか。

編集

com/sun/pdfview/PDFFile.java の説明で次のことを見つけました

.

0 投票する
1 に答える
1976 参照

c# - iText/iTextSharp を使用して PDF ファイルからフォントの高さと回転を抽出する

iTextSharp を使用して PDF ファイルからテキストとフォントの高さを抽出するコードを作成しましたが、テキストの回転を処理しません。その情報をどのように抽出/計算できますか?

コードは次のとおりです。

0 投票する
1 に答える
1945 参照

itextsharp - iTextSharp で FontProviderImp を選択する

HTMLの解析にXMLWorkerを使用しています。スタイルで定義したフォントに問題がありました。たとえば、次のような単純なものです。

動作していませんでした。

これをCSSアプライヤーとして使用していました:

HTML のエンコーディングに問題があるのか​​、それとも他の問題なのかを確認するために、IFontProvider を独自に実装しました。

次に、これ:

素晴らしい!!!、それはうまくいきます!!!、また、コンストラクターにこれを渡した場合:

も機能します。

したがって、フォント プロバイダーのデフォルトの実装が機能していないことは明らかです。私はそれを次のように定義しました:

、どちらも機能しませんでした。

私の質問は次のとおりです。

  1. これにはどのような説明が考えられますか?
  2. XMLWorkerFontProviderFontFactoryImp実装の違い
0 投票する
2 に答える
2630 参照

java - PDFBoxを使用したPDF内のテキストのフォント情報

私はApache PDFBoxライブラリが初めてです。

フォント情報を PDF 段落にマップしたい

pdfboxを使用してテキスト コンテンツのフォント スタイルを抽出する方法は?

しかし、どの段落がどのフォントで書かれているかについての情報は提供しません。

たとえば、私のページにテキストが含まれている場合:

para1:Arial

para2:Times New Roman

次に、para1 が Arial で記述され、para2 が Times New Roman で記述されているという情報を取得できるはずです。

上記の質問で提案された解決策は、PDFページに含まれる情報のみを提供します

arial と times new roman .

0 投票する
1 に答える
2027 参照

pdf - PDF に透明なオブジェクトがあるかどうかを Ghostscript で確認する

PDF では、いくつかの部分で透明度を定義できます (たとえば、ここを参照)。

グラフィカル スタイル属性として:

  • /ca不透明度 ( ) または線の不透明度 ( )/CAを 1.0 未満の値で塗りつぶします。
  • ソフトマスクの定義 ( \SMask)

または透過ページ グループの定義 ( /S /Transparency) を使用します。

次のgrep式は、そのための簡単な (そして汚れた) チェックです。

で透明なオブジェクトがあるかどうかを確認することはできますgsか?