問題タブ [pdfbox]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdfbox - Lucene - 効果的なテキスト検索
pdfbox api class によって生成されたインデックスがありますLucenePDFDocument
。索引にはテキストの内容しか含まれていないため、この索引を効率的に検索したいと考えています。
検索文字列を使用して「コンテンツ」フィールドを検索します。結果の順序は、関連性の高いものから関連性の低いものの順に並べる必要があります。以下のコードは、検索されたテキストの単語を含むファイルを表示しました。たとえば、 'What is your nationality'ですが、結果にはこの完全な文を含むファイルが含まれていませんでした。
上記のシナリオで検索するには、どのクエリパーサーとクエリを使用する必要がありますか。
java - PDFBox-座標系
次のことを実現したいと思います。PDF ファイルのセットがあります。まず、座標系の原点を確認したいと思います。PDFの座標系の原点が左上でない場合[通常原点は左下]、左上の座標で結果のPDFを作成したいと思います。PDFBox [コードスニペットは以下]を使用してこれを実行しようとしていますが、結果のPDFが空白になります。私は PDFBox を初めて使用するので、この点に関するヘルプは大歓迎です。
java - Java + Linux 上の PDFBox
PDFBox を使用するサーバー用の小さなプログラムを作成する必要があります。NetBeans を使用してウィンドウの下で書いています。サーバーにエクスポートしたら、PDFBox jar をプログラム jar に追加するにはどうすればよいですか?
java - JavaクローズPDFエラー
私はこのJavaコードを持っています:
そしてこれを投げます:
理由はわかりませんが、これを1、2、3、またはそれ以上投げます。
COSDocumentはクラスであり、close()メソッドがあることがわかりましたが、このクラスはどこにも使用していません。
私はこの輸入品を持っています:
ありがとう :)
pdf-generation - PDFBox を使用して PDF にリンク付きの画像を挿入する
複数の PDF があり、http: //xyz.comにリンクするすべてのページにロゴを挿入したいと考えています(つまり、ロゴをクリックすると、ブラウザーで xyz.com が開きます)。また、「ここをクリックして xyz.com でこのページを表示するには、ここをクリックしてください」というテキストをロゴの横に挿入したいと思います。「ここをクリック」はリンクです ( http://xyz.com/show. php?id=76&page=3 )
ロゴとテキストを追加できましたが、テキストをリンクにする方法がわかりませんでした。
pdf - 目に見えないテキストを PDF に挿入する方法は?
更新:代わりにhttps://softwarerecs.stackexchange.com/questions/71464/java-library-to-insert-invisible-text-into-a-pdfを参照してください。
検索可能にするために、既存の PDF ファイルに非表示のテキストを挿入したいと考えています。
どのライブラリを使用すればよいですか? 使用する特定のAPI メソッド
へ
のリンクをいただければ幸いです。
無料、理想的にはオープンソース。
どうもありがとう!
(興味深いことに: Alfresco リポジトリで、受信したスキャンされた書類を自動的に OCR して検索可能にしたい)
java - Java PDF 操作、パターン マッチングに基づくテキストの置換、ハイパーリンク
PDFドキュメントを取得し、パターンに一致するすべてのサブ文字列を置き換える最良の方法を知っている人はいますか( [AZ][AZ][AZ] ' ' [0-9][0-9][0-9][ 0-9]|[AZ] )、同じ文字列に移動する同じ文字列のハイパーリンクに置き換えます。
ユーザーがpdfドキュメント(学位を取得できるクラスのリスト)を表示できるようにし、ユーザーがクラスをクリックしてリストに追加できるようにする予定です。
JEditorPane に hyperlinklistener を追加できることを理解しており、pdf のハイパーリンクで機能すると想定しています (希望します)。
私はpdfboxとiTextを調べていますが、これまでテキストを置き換える方法に行き詰まっています。
* URL から pdf を取得し、その場でハイパーリンクをフォーマットする予定です (ファイルにエクスポートする必要もありません)。
フィードバックをお待ちしております。
java - PDFBox - パフォーマンスを向上させるオプション
PDFBox ライブラリ (JAVA) に関して 2 つの質問があります。
PDFBox ライブラリの使用を開始したばかりで、うまく機能していますが、
ut.mergeDocuments()
(ITEXT の concat_pdf.main(..) に対して) メソッドを使用すると、ITEXT (使用した他の PDF ライブラリ) よりも実行速度が遅いことに気付きました。このツールのパフォーマンスを向上させることができるかどうか、またはその方法を知っている人はいますか?PDFBox は暗号化されたファイルに対してより敏感であることがわかります。ITEXT を使用すると、暗号化された PDF をマージできますが、PDFBox は次のような例外をスローします。
「PDFBoxConcat failedjava.io.IOException: エラー: 宛先 PDF は暗号化されています。暗号化された PDF ドキュメントを追加できません。」
ITEXTでは機能するがPDFBoxでは機能しない理由を知っている人はいますか?
私の推測では、ITEXT は暗号化されているものを正確に認識し、それによってアクションを許可するように洗練されているのに対し、PDFBox は暗号化されているかどうかを確認しているだけです。
誰でも私のためにこれを確認できますか?
mergeDocuments()
暗号化のチェックを確認できる方法として、pfdBox のこのコード (オープン ソース) があります。
これをコメントに入れようとしましたが、マージされたドキュメントは意味不明なものになりました。
パフォーマンスを改善するための私の試みのコード例をいくつか追加するだけです。
これらは私がこれをやろうとした3つの異なる方法です:
pdf - itext、PDFbox以外のJavaアプリケーションを使用してPDFファイルを読み書きする他の方法はありますか?
iText と PDFBox で試しました。単純ではありません。これには多くのコードを理解する必要があります。Javaアプリケーションを使用してPDFを読み書きする簡単な方法を誰でも提供できますか? アプリケーションがスタンドアロンであり、Web/アプリケーション サーバーが不要であることを確認してください。
java - Apache PDFBox 1.3.1 での PDF 抽出の問題
Apache PDFBox を使用して PDF からデータを抽出しているときに、いくつかの問題に直面しています。PDFBox バージョン 1.1 では、データを適切に抽出できました。しかし、バージョン 1.3.1 では同じコードが異なる出力を示しています。いくつかの PDF でのみ、この問題に直面しています。
コードサンプル
出力例は次のとおりです。
バージョン 1.1 の場合: 口座番号 xxxxx xxxxxx-xx-x .....
バージョン1.3.1:schdoe sisinrrpnnvuttccraareilleuucfczex dde、pt reef hr rusdediibc n dsdveoe i:piitgdtlayieutais bll sxpuwf rn ew df ew l er .rdceo ds mwecritvhais burtgedsicte burtedce TAoiucllttciaonol g PuA Danmyta otNeuunmt Dbueer 00$0T P9122a5/0/g3117e198. /4/211 17 11o6f0 3498-01-6 THITTTPTNoFHHoDC ttEE HDaaDE lliiAAP ggVXAM-hiTRtTFda A Tueo .....
何が問題なのか誰にも分かりますか?