問題タブ [pdf-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python PDFMiner エラー:「/Root オブジェクトがありません! - これは本当に PDF ですか?」
「No /Root object! - これは本当に PDF ですか?」というエラーが表示されます。Python 2.7 とPDFMinerバージョン 20110515 を搭載した MAC コンピュータを使用しています。同じファイルを含む同じプログラムが PC コンピュータで動作するため、pdf ファイルは破損していません。また、私は多くのpdfを試しましたが、このエラーはそれらすべてに存在します。このエラーが発生しないようにするには、MAC で何を変更する必要があるかについてのアイデアはありますか?
java - 間違ったエンコーディングでの PDFTextStripper の解析
結果には次のようなものが含まれます
それ以外の
エンコーディングを windows-1252 または utf-8 に変更しても結果は変わりません。不正な pdf の URL http://www.permaco.ch/fileadmin/user_upload/jobs/Inserat_SeLe_EE_rev.pdf
このpdfを解析するには?
scala - PDF 解析エラーを解決する方法
スカラコード:
ここで、file は pdf ファイルを参照しています。path は pdf ファイルのアドレス、name はファイルの名前です。
通常、問題なく実行されますが、一部の pdf ファイルでは、5 行目で次のようにエラーがスローされます。
この pdf ファイルの形式または内容に問題があると思われます。このpdfファイルで名前を付けて保存を使用して別のpdfファイルを作成し、その新しく作成されたpdfファイルを使用すると、正常に機能しました。
では、この問題を解決して、適切なファイルまたは不良ファイルのどちらを使用しても、コードが正常に動作するようにするにはどうすればよいですか。
編集
com/sun/pdfview/PDFFile.java の説明で次のことを見つけました
.
c# - iText/iTextSharp を使用して PDF ファイルからフォントの高さと回転を抽出する
iTextSharp を使用して PDF ファイルからテキストとフォントの高さを抽出するコードを作成しましたが、テキストの回転を処理しません。その情報をどのように抽出/計算できますか?
コードは次のとおりです。
itextsharp - iTextSharp で FontProviderImp を選択する
HTMLの解析にXMLWorkerを使用しています。スタイルで定義したフォントに問題がありました。たとえば、次のような単純なものです。
動作していませんでした。
これをCSSアプライヤーとして使用していました:
HTML のエンコーディングに問題があるのか、それとも他の問題なのかを確認するために、IFontProvider を独自に実装しました。
次に、これ:
素晴らしい!!!、それはうまくいきます!!!、また、コンストラクターにこれを渡した場合:
も機能します。
したがって、フォント プロバイダーのデフォルトの実装が機能していないことは明らかです。私はそれを次のように定義しました:
、どちらも機能しませんでした。
私の質問は次のとおりです。
- これにはどのような説明が考えられますか?
XMLWorkerFontProvider
とFontFactoryImp
実装の違い
java - PDFBoxを使用したPDF内のテキストのフォント情報
私はApache PDFBoxライブラリが初めてです。
フォント情報を PDF 段落にマップしたい
pdfboxを使用してテキスト コンテンツのフォント スタイルを抽出する方法は?
しかし、どの段落がどのフォントで書かれているかについての情報は提供しません。
たとえば、私のページにテキストが含まれている場合:
para1:Arial
para2:Times New Roman
次に、para1 が Arial で記述され、para2 が Times New Roman で記述されているという情報を取得できるはずです。
上記の質問で提案された解決策は、PDFページに含まれる情報のみを提供します
arial と times new roman .
pdf - PDF に透明なオブジェクトがあるかどうかを Ghostscript で確認する
PDF では、いくつかの部分で透明度を定義できます (たとえば、ここを参照)。
グラフィカル スタイル属性として:
/ca
不透明度 ( ) または線の不透明度 ( )/CA
を 1.0 未満の値で塗りつぶします。- ソフトマスクの定義 (
\SMask
)
または透過ページ グループの定義 ( /S /Transparency
) を使用します。
次のgrep
式は、そのための簡単な (そして汚れた) チェックです。
で透明なオブジェクトがあるかどうかを確認することはできますgs
か?