問題タブ [pdfbox]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - バイナリ ファイルの解析中にエラーが発生しました
PDFBOXバージョンを1.6.0にアップグレードした後、Apache Tikaを使用してpdfファイルを解析しようとしています...そして、いくつかのpdfファイルでこのエラーが発生し始めました。助言がありますか?
そして、これが私のコードです。
java - PDFBoxによる国際化
私は自分のプロジェクトで PDFBox を使用して、自分のプログラムからのデータを含む pdf ファイルを作成しています。日本語から始まる新しい言語を追加し始めているので、これまでうまく機能しています。
私はこれを試しました:
pdfbox のエンコーディングの問題のようです。
私は自分のコンピューターとMPlusの Unicode フォントのようなさまざまなフォントを試しましたが、実際にはどこにも行きません。インターネットを見回すと、pdfbox にはさまざまな言語の文字の処理に問題があるようです。
私の質問は、これを続けるべきですか?次はロシア語、ペルシャ語、タイ語などです。日本語が使えるようになったとしても、新しい言語ごとに行き詰まってしまうのではないかと心配しています。
私が見ている私の選択肢は、別のライブラリ、フライングソーサーを試すことであり、ホットな候補です。もう 1 つのオプションは、オープン オフィス UNO を使用して .doc ファイルを作成することです(ここで説明します)。これにより、さまざまなエンコーディングを処理するという頭痛の種を回避できます。
Soo ..誰かがpdfboxで作業していて、国際化が機能するようになったことがありますか、それとも別の戦略を試す必要がありますか?
java - スレッド「main」の例外java.lang.NoClassDefFoundError:org / apache / commons / logging / LogFactory
私はJavaでpdfboxを使用してpdfを画像に変換しています。しかし、コンパイルするとメッセージが表示されます
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory
。
これが私がフォローしているコードです。このエラーから抜け出すのを手伝ってください。
java - PDFBox を使用してテキストと画像の位置 (xy 座標) を読み取る
暗号化されたPDFファイルを読み取り、ファイル内のテキスト、画像、およびそれらの位置(x、y座標)を含むファイルの内容をページごとに抽出するJavaプログラムを実行しています。今、私はこの目的のために PDFBox を使用しており、テキストと画像を取得しています。しかし、テキストの位置と画像の位置を取得できませんでした。また、一部の暗号化された PDF ファイルの読み取りに問題があります。
java - PDFBox drawString で改行を挿入する方法
テーブルでPDFを作成する必要があります。これまでのところ問題なく動作していますが、今度はラッピング機能を追加したいと考えています。そのため、改行を挿入する必要があります。
\n
「挿入」の前に「」を追加したい。\u000A
改行の 16 進値である" " を試しましたが、Eclipse でエラーが表示されます。
drawStringで改行を追加することはできますか?
java - pdfboxでpdfを分割するが、フォントが失われる
PDFドキュメントを個々のページに分割し、ページを調べて特定の文字列を探し、文字列を含むページから新しいpdfを作成するpdfbox APIを使用して、Javaでいくつかのコードを作成しました。私の問題は、新しいページを保存すると、フォントが失われることです。それをテストするために簡単な単語文書を作成したところ、デフォルトのフォントは calibri だったので、プログラムを実行すると、「埋め込まれたフォントを抽出できません...」というエラー ボックスが表示され、フォントが他のデフォルトに置き換えられます。 .
PDFに配置するテキストを入力するときにフォントを変更する方法を示す多くのサンプルコードを見てきましたが、PDFのフォントを設定するものはありません.
誰かがこれを行う方法に精通している場合(またはドキュメント/例を見つけることができる場合)、私はそれを大いに感謝します!
編集:サンプルコードを含めるのを忘れていました
参考になるかわかりませんが、入れてみました。
また、pdf が calibri で分割されて書かれている場合の変更は次のようになります。
注: これは、処理する必要のあるファイルで使用されているフォントによって異なりますが、問題ではない場合があります。Calibri以外にもいくつか試してみましたが、うまくいきました。
java - pdfboxでページをn回コピーする
単一ページの pdf テンプレート ファイルを作成しました。次に、pdfbox を使用して、「n」ページの PDF を作成します (レポートのサイズによって異なります)。これらのページのすべての「n」をテンプレートpdfファイルのページにしたい。すべての「n」ページをそのページのコピーにする最良の方法は何ですか? これが私の現在のコードです:
問題は、結果セットが大きい場合です。PDF を開くと、11 ページとして表示されます。最初の 2 ページは見栄えがしますが、3 ページ目にスクロールすると、Acrobat エラーが発生します。テンプレート ページはそこにあるように見えますが、レポート データはありません。問題はおそらく上記のコードにあると思います。何か案は?ありがとう。
solr - 単語内に空白を追加するPDFBox
PDFファイルからテキストを抽出しようとすると、いくつかの単語の間にランダムに空白が挿入されるようです。
このページのダウンロードセクションにある次のサンプルファイルでpdfbox-app-1.6.0.jar(最新バージョン)を使用しています:http: //www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian -トレーニング
私は他のいくつかのPDFファイルで試しましたが、いくつかのページで同じことをしているようです。
私は次のことをします:
java -jar pdfbox-app-1.6.0.jar ExtractText -force -console〜/ Desktop / ped training pdf.pdf
ダウンロードしたファイルに、コンソールの結果に間違って挿入された次のスペースが表示されます。「•子供が安全に歩いて学校に行くことができれば、混雑を減らすことができます。」
「•後の人生のために良い習慣を身につけます。」
「www.sheffield.gov.uk」
「ThinkAhead!、これはに基づいています」
などなど。
ご覧のとおり、上記のいくつかの単語の間にスペースがありますが、理由はありません。
私はubuntuを使用しており、SunのJDK1.6を実行しています。
私はこれをいくつかの異なるPDFファイルで試し、フォーラムで解決策を探してみました。同様のバグがありましたが、すべて解決されたようです。
ヘルプがあれば、または他の誰かが同じ問題を抱えている場合はコメントしてください。これは、検索のためにコンテンツを適切に索引付けする際に大きな問題を引き起こしています。
schema - XMPメタデータへのカスタムスキーマ
XMP標準スキーマでサポートされていないカスタムメタデータをPDFファイルに書き込みたいので、独自のプロパティを含む独自のスキーマを作成しました。PDFBoxまたはiTextPDFライブラリを使用して、これらの追加のカスタムメタデータをPDFファイルに正常に書き込むことができます。ただし、XMP xmlを解析せずに、クライアント側でカスタムメタデータを読み取ることはできません。
カスタムスキーマをJavaクラスに戻すために私が知らないAPIがあるはずだと思います。
私が正しい方向に考えている場合、またはクライアント側でカスタムデータを取得するために実際にxmlを解析する必要がある場合は、私を助けてください。
これが私がPDFBoxライブラリを使って書いたコードです
カスタムメタデータファイル。
カスタムスキーマファイル。
XMLクライアントファイル。
XMPClientファイルでは、クラス名からクエリを実行することにより、関連するメタデータからEMXSchemaオブジェクトを取得することを期待しています。
しかし、これが見つからなかったことを示すNullPointerExceptionが発生します。私が正しい方法でそれを行っている場合、または受信者の値を取得するためにXMPを解析する必要がある場合、誰かが私を助けてくれますか?
ありがとう
pdfbox - LucenePDFDocumentはpdfboxから削除されましたか?
プロジェクトのライブラリをアップグレードし、pdfboxを0.6.7からバージョン1.6.0にアップグレードしましたが、LucenePDFDocumentクラスが見つかりません。このクラスは、Apacheページのドキュメント/チュートリアルで引き続き言及されています。何か案は?