問題タブ [pdfbox]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
314 参照

eclipse - Maven2 Eclipse プラグイン

私のjarファイル、特にpdfbox 1.6が他のjarファイルを見ることができるように、プロジェクトに依存関係を追加しました。Mavenが提供するプロジェクト機能を右クリックして依存関係を追加した後、依存関係が機能していること、および実行したことが正しいことを確認するにはどうすればよいですか? 作成された pom.xml ファイルを表示すると、ターゲット フォルダーとクラス、テストクラスのサブフォルダーは何に使用されますか? ありがとう

0 投票する
1 に答える
1596 参照

solr - Solr ExtractingRequestHandler pdfテキスト抽出

Solr の PDF テキスト抽出に問題があります。Solr は Apache Tika を使用して PDF ファイルのテキストを抽出し、tika はそのために PDFBox を使用します。PDF ファイルを Solr に送信すると、テキストは正常に抽出されますが、テキストが完全にめちゃくちゃになります。そんな感じ

MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht

しかし、次のコマンドを使用してコマンドラインで PDFBox を使用して同じ PDF ファイルを直接抽出すると、良い結果が得られます。

java -jar pdfbox-app-1.6.0.jar ExtractText -console test.pdf

どの Tika バージョンまたはそれ以上の PDFBox バージョンが solr で使用されているかわかりません。solr warファイルでそのライブラリを見つけることさえできません... libディレクトリ内のすべてのライブラリは次のとおりです。

誰かがそれに対する解決策を知っていれば、本当にうれしいです。

0 投票する
1 に答える
1536 参照

embedded-fonts - PDFBOX0.8.0を使用してpdf埋め込みフォントを取得する方法

私のコード:

私は出力を得ました:

fonts={F0=org.apache.pdfbox.pdmodel.font.PDType1Font@8aaed5,
F4=org.apache.pdfbox.pdmodel.font.PDType0Font@dc4414, F2=org.apache.pdfbox.pdmodel.font.PDType0Font@f98ce0 , F6=org.apache.pdfbox.pdmodel.font.PDTrueTypeFont@18fcdce}

なぜフォント マップのキーは F0/F1/F2/F6 なのですか? これらはどういう意味ですか?すべてのPDFページを反復してすべてのフォントを取得する必要がありますか?

ご回答有難うございます。

0 投票する
1 に答える
2284 参照

java - htmlからpdfおよびimagejavaに変換します

さて、私はこのトピックに関するここにあるほとんどすべての質問を読みました!

私はAPIが必要です-PDFから画像に非常に高品質で変換するためのツールではありません。

そのため、直接的なツールは見つかりませんでした。HTMLからPDF、PDFから画像を使用しました。

私は試した:

  • PDFRenderer
  • FDFBOX
  • PDFONE
  • HTML2IMAGE
  • フライングソース
  • ITEXT
  • JPEDAL
  • PDFCrown

市販のもの(PDFCrownとPDFBox)だけが良い結果を出しました。

Javaはオープンソースプロジェクト用だと思いました!

HTMLから高品質の画像で印刷するライブラリがありませんか(PDFからでも可能ですが、途中で支払うことができます。)

0 投票する
1 に答える
158 参照

java - PDFドキュメントを操作するための外部jarをPDFBoxで操作すると、NoClassDefFound例外が発生します

プロジェクトにEclipseIDEを使用していますが、プロジェクトの外部jarに「pdfbox-1.6.0.jar」を追加しました。このjarファイルのAPIをインポートするコードを記述したとき、Eclipseは例外を表示しませんでした。しかし、プログラムを実行すると、「NoClassDefFound」例外が表示されます。誰かがこれについて私を助けることができますか...?

0 投票する
3 に答える
5376 参照

solr - Solr で PDF を解析するための Tika/PDFBox の代替 (1.4 以降の任意のバージョン)

Solr が PDF ファイルを正しく解析していないようです。PDFファイルを解析するためにApache Tika(PDFBoxを内部で使用していると思われる)を使用する代わりに他の方法があるかどうか疑問に思っていましたか?これを使用すると、コンテンツ間にランダムなスペースができるようです。同じ問題を抱えているPDFBox(最新バージョン)を介してPDFを直接実行することで、問題を特定しました。

Omnifind などの一部の OCR 商用ソフトウェアは PDF で問題なく動作しますが、それらを同じ方法で Solr と統合することはできず、購入することもできません。

0 投票する
1 に答える
2260 参照

parsing - Apache Lucene を使用して大きな PDF ファイルを解析する

大きなpdfファイルのセットを検索/解析する最良の方法を見つけようとしています。現在、PDFBox を使用して PDF ファイルをテキスト ファイルに変換しています。次に、Lucene を使用してこれらのテキスト ファイルのインデックスを作成し、情報を検索しています。このアプローチを使用すると、いくつかの問題に直面しています。(私はこれらの技術を非常に基本的なレベルで使用して、何ができるかを確認していることに注意してください) .

すべての列の総計を示す PDF ファイルの次の行を考えてみましょう。各列には値のペアが含まれており、その合計は次のように表示されます。

PDFBoxのTextStripperを使用してpdfファイルをテキストファイルに変換すると、pdfファイルの上記の行がテキストファイルの次のテキストに変換されます。

上のテキスト ファイルからわかるように、データは総計ラベルの周りに散らばっています。そのため、PDF ファイルのインデントがテキスト ファイルに保持されないため、総計情報を取得することが難しくなります。

したがって、テキストファイルがPDFファイルのインデント/フォーマットを維持するように、PDFファイルをテキストファイルに変換する方法があるかどうかを知りたいです。また、私の目的を達成するために Lucene を使用することをお勧めしますか、それとも大きな PDF ファイルのセットから情報を取得するためのより簡単で高速な方法があるかどうかも知りたいです。

0 投票する
0 に答える
195 参照

java - PDFBoxを使用してJavaでpdfのテキストのフォントカラーを抽出する

重複の可能性:
PDFBoxでテキストの色を取得する

PDFBoxの操作、テキストの抽出などを始めたばかりです。私が興味を持っているのは、テキストの色です。しかし、その情報を入手する方法はないようです。

PDFBoxを使用してドキュメントの色情報を取得することは可能ですか?その場合、どのようにすればよいですか?

0 投票する
1 に答える
574 参照

java - PDF からフォーム要素を削除する方法

クライアントが Java バックエンド サーバーにアップロードする PDF ドキュメントを「より単純な」形式に変換して、後で iPad アプリで正しくレンダリングできるようにする方法を探しています。私は PDF の専門家ではありませんが、私の知る限り、インタラクティブなフォーム要素を削除するか、PDF を PDF-X バージョンに変換する必要があります。

iTextの「setPDFXConformance(PdfWriter.PDFXNONE)」を調べてみましたが、あまり効果がありませんでした。フレンドリーなライセンスなので、PDFBoxでやりたいのですが、提案があれば受け入れます。