問題タブ [pdfbox]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Javaで一度に1ページずつpdfアップロードストリームを読む
j2ee アプリケーションで PDF ドキュメントを読み込もうとしています。
Web アプリケーションの場合、pdf ドキュメントをディスクに保存する必要があります。検索を簡単にするために、文書内のテキストの逆索引を作成したいと考えています。OCRの場合。
PDFbox ライブラリを使用すると、pdf ファイル全体を含む pdfDocument オブジェクトを作成できます。ただし、メモリを保持して全体的なパフォーマンスを向上させるには、ドキュメントをストリームとして処理し、一度に 1 ページずつバッファーに読み込みます。
PDFを含むファイルストリームをページごと、または一度に1行ずつ読み取ることができるのだろうか。
java - pdfboxとpdfrendererの両方が「追加フォント」をサポートできないのはなぜですか?
'UniCNS-UCS2-H'フォントを含むpdfがあります。pdfboxとpdfrendererの両方を試しましたが、すべて例外がスローされます:'UniCNS-UCS2-H'の不明なエンコーディング
このフォントはフォントファイル:mingliu.ttcに含まれていました(これはTrueTypeコレクションファイルです。これが問題になるかどうかはわかりませんか?
これらの2つのライブラリが追加のフォントをサポートできるようにするにはどうすればよいですか?
c# - PDFBox を使用して PDF テーブルからテキストと書式を取得するにはどうすればよいですか?
PDFBox を使用して、PDF ファイルから C# を使用してテキストを解析しています。これは問題なく動作しますが、パーサーがテーブルに到達すると、テキストを解析して書式設定を破棄します。
テーブルからテキストを解析しながら書式設定を維持するにはどうすればよいですか?
pdf - PDF からテキストをコピーして貼り付けるとゴミが発生する
私は修士論文 - NLP システムを書いています。コンポーネントが 1 つあります - エクストラクタです。
PDFファイルからプレーンテキストを抽出しています。正しく抽出できない PDF ファイルがいくつかあります。Extractor (PDFBox ライブラリ) は、次のような文字列を返します。
"┤xDn║if|d├gDF"Ti&cD╬lh d FÁhis~n ╗xd f«"d┤ffih »h"
また
"10a61a91a22a25a3a27a17a23a20a8a13a14a61a25a17"
この抽出の問題を引き起こす各ファイルをチェックしていましたが、これらすべてのファイルのテキストも PDF リーダー (Adobe Reader および FoxIt リーダー) からコピー アンド ペーストできません。このリーダーでそれらを表示することはできますが、そのコンテンツを選択してクリップボードにコピーした後、同じ間違ったテキストが表示されます (上記のように、意味的に正しくない文字の文字列または数字と文字の文字列)。
誰か助けてくれませんか???
java - PDFBox設定A5ページサイズ
PDFBoxで遊び始めました
しかし、ファイルサイズをPDPage.PAGE_SIZE_A5に設定したいと思います。すべてのsetXXXBox(PDRectangle mediaBox)メソッドのシグネチャを設定しようとしましたが、期待どおりの出力が得られません。
何か案は?
java - PDFBoxでPDFファイル(特に表を含む)を解析する
表形式のデータを含む PDF ファイルを解析する必要があります。PDFBoxを使用してファイル テキストを抽出し、後で結果 (文字列) を解析しています。問題は、表形式のデータに対して期待どおりにテキスト抽出が機能しないことです。たとえば、次のようなテーブルを含むファイルがあります (7 つの列: 最初の 2 つの列には常にデータがあり、複雑さの列には 1 つのみ、データは 1 つのファイナンシングの列にしかありません):
次に、PDFBox を使用します。
これらの 2 行のデータは、次のように抽出されます。
最後の 2 つの数字の間に空白はありませんが、これは最大の問題ではありません。問題は、最後の 2 つの数字 (中、高、該当なし) の意味がわからないことです。MAC/その他、FAE? 数字とその列の間に関係はありません。
PDFBox ライブラリを使用する必要はないので、別のライブラリを使用するソリューションで問題ありません。私が望むのは、ファイルを解析し、解析された各数値が何を意味するかを知ることです。
c# - 最速の PDF->.NET プロジェクト用テキスト ライブラリ
基本的に私の PDF コレクションのカタログとなるアプリケーションを作成しようとしています。数万の PDF を含む 15 ~ 20 GB について話しています。また、全文検索メカニズムを組み込む予定です。検索には Lucene.NET (実際には NHibernate.Search) を使用し、PDF からテキストへの変換にはライブラリを使用します。どれが最良の選択でしょうか? 私はこれらを検討していました:
- PDFボックス
- c# ラッパー経由の pdftotext (xpdf から)
- iTextSharp
編集:他の良いオプションは、iFilters を使用しているようです。これらのライブラリと比較して、それら (Foxit/Adobe) のパフォーマンス (速度/品質) はどれくらいですか?
商用ライブラリはおそらく問題外です。これは私の個人的なプロジェクトであり、商用ソリューションの予算は実際にはありませんが、PDFTextStream は非常に見栄えがします。
私が読んだことから、 pdftotextはPDFBoxよりもはるかに高速です。pdftotext と比較して、iTextSharp はどれくらいうまく機能しますか? または、誰かが他の優れたソリューションを推奨できますか?
java - Java - PDFBox - テキスト抽出
PDFからテキスト情報を抽出するためにpdfboxを使用しています。fontname 、 fontface 、 size 、position などのテキストのすべてのプロパティを正常に解析しました。
問題: pdfbox1.2.1 (最新バージョン) を使用しています。TextPosition クラスの getCharacter() は、最後の文字を除く完全な文字列を返します。最後の文字は別の文字列として解析されます。
例: "How are you" は、"How are yo" と "u" (2 つの別個の文字列) として解析されます。
そうなってほしくない..
誰かがこれに出くわしましたか?..私は何か間違ったことをしていますか??..返信を待っています..
よろしくお願いします、マギー
.net - PDFBox-IKVMを使用して.NETの最新バージョンを構築する
.NETプロジェクトで使用するために、最新バージョンのPDFBox( http://pdfbox.apache.org/userguide/dot_net.html )をビルドしたいと思います。
私はJavaの経験がまったくありませんが、ここで定義されている手順を使用しています: http ://www.ikvm.net/userguide/tutorial.html
次のバージョンを使用しています。
-IKVM(0.42.0.6)
-PDFBox(1.2.1)JARファイル
問題は、DLLを作成しようとすると、一連のエラーメッセージ(つまり、「java.lang.NoClassDefFoundError」)が表示されることです。私はここで作成者と同じ問題に直面しており(IKVMを使用して.net / C#環境でPDFBox 1.0を使用する方法)、提案された修正を試しました-"lkvmc.exe -target:library -out:"[出力パス]\netpdfbox。 dll "" [PDFBox Path] *。jar"ですが、結果は同じです。エラーメッセージは引き続き表示されます。
前もって感謝します、
ホセ
java - JavaでPDFプロパティを編集するには?
既存のプロパティを編集するか、作成者名、タイトル、件名などの新しい PDF プロパティを Java アプリケーションから設定する必要があります。それを行う方法はありますか?apache.pdfbox ライブラリを見つけましたが、それで問題が解決するかどうかわかりません。