問題タブ [pdfbox]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java PDFBOX テキストエンコーディング
Java アプリケーションから一部のデータを pdf ファイルにエクスポートしようとしています。pdfBox ライブラリを使用することにしましたが、正しく表示されているギリシャ文字を pdf ファイルに変換できないことに気付きました。エンコーディングを設定する方法はありますか?utf8、またはiso-8859-7に?PdFontEncoding や Encoding などを試しましたが、何も得られませんでした。
お時間をいただきありがとうございます。
pdf - Extracting paragraph from pdf
I'm doing topic modelling on a pdf e-book and need to extract text paragraph by paragraph. For this I use apache pdfBox which is efficiently extract text from pdf.
But I cannot extract paragraphs separately. This tool provides a way to set the paragraph start/end identifier, but I need to know the paragraph break identifier for this.
Is there a way to do this, or if there some other tool available which can do paragraph extraction effectively?
java - PDFBox を使用して UTF-8 でエンコードされた文字列を PDF に書き込む
PDFBox を使用して Unicode 文字を PDF に書き出すのに問題があります。「š」を出力する代わりに文字化けを生成するサンプル コードを次に示します。UTF-8 文字列をサポートするには何を追加すればよいですか?
apache - Apache pdfbox java.lang.IndexOutOfBoundsException に関する問題: インデックス: 2、サイズ: 2
私はpdfからテキストを抽出するためにapache pdfbox 1.5を使用しています。これが使用されているコードです。これは、一部の pdf では問題なく動作するようです。しかし、以下のエラーで1つのpdfで失敗しました。誰かがそのような問題に遭遇して解決したかどうか教えてください
java.lang.IndexOutOfBoundsException: Index: 2,Size: 2
at java.util.SubList.rangeCheck(AbstractList.java:864)
at java.util.SubList.get(AbstractList.java:737)
at org.apache.fontbox.cff.CharStringConverter.drawCurve(CharStringConverter.java:415)
at org.apache.fontbox.cff.CharStringConverter.handleType2Command(CharStringConverter.java:277)
at org.apache.fontbox.cff.CharStringConverter.handleCommand(CharStringConverter.java:81)
at org.apache.fontbox.cff.CharStringHandler.handleSequence(CharStringHandler.java:53)
at org.apache.fontbox.cff.CharStringConverter.handleType2Command(CharStringConverter.java:307)
at org.apache.fontbox.cff.CharStringConverter.handleCommand(CharStringConverter.java:81)
at org.apache.fontbox.cff.CharStringHandler.handleSequence(CharStringHandler.java:53)
at org.apache.fontbox.cff.CharStringConverter.convert(CharStringConverter.java:64)
at org.apache.fontbox.cff.CFFFont$Mapping.toType1Sequence(CFFFont.java:374)
at org.apache.fontbox.cff.AFMFormatter.renderFont(AFMFormatter.java:126)
at org.apache.fontbox.cff.AFMFormatter.printFontMetrics(AFMFormatter.java:64)
at org.apache.fontbox.cff.AFMFormatter.printFont(AFMFormatter.java:57)
at org.apache.fontbox.cff.AFMFormatter.format(AFMFormatter.java:50)
java - PDF から画像への変換用のオープンソース ライブラリ
重複の可能性:
Java で PDF ページを一連の画像にエクスポートする
PDFファイルから画像への変換に使用できる優れたJavaライブラリをいくつか提案してください。PDFBox: http://pdfbox.apache.org/を使用してみましたが、画像に変換した後、pdf ファイルのテキストのほとんどが画像で文字化けしました。「T」は「Y」、「C」は「#」などと読みます。
以下は、同じために使用したコードスニペットです。
フォントのレンダリングに問題があると思います。PDFBox の使用中に何かを見逃した可能性があると思われる場合は、お知らせください。
他の代替案も提案してください。
私は jPedal を使用してみました: http://www.jpedal.org/は問題なく動作しますが、無料ではないので、これに関するすべての良い代替案について提案してください。
java - pdfBoxでPDFから抽出した画像のDPI
私はJava pdfBoxライブラリを使用して、画像が埋め込まれた単一ページのpdfファイルを検証しています。
私は、pdf ファイル自体に DPI 情報が含まれていないことを知っています。
ただし、ドキュメント内の同じ寸法の画像は、抽出後のピクセル単位のサイズが異なり、dpi メタ情報はありません。
pdfBoxを使用して、pdfページに相対的な画像サイズを何らかの方法で計算したり、dpi情報(pngまたはjpeg画像ファイルの場合)で画像を抽出したりすることは可能ですか?
ありがとう!
java - PDFBox 画像メタデータ
学校のプロジェクトでは、PDFBox ライブラリを使用して、PDF の画像抽出プログラムに取り組んでいます。私が今直面している問題は、メタデータを取得することです。これまでのところ、PDF 自体からのみメタデータを取得できましたが、PDF 内の画像からは取得できませんでした。
PDFBox を使用して PDF 内のすべての画像からメタデータを取得することは可能ですか? もしそうなら、誰かが私に例を紹介してもらえますか? これまでに見つけた例はすべて、画像ではなく PDF 自体のメタデータに関するものです。
また、PDF を作成すると、その中のオブジェクトからメタデータが削除されると聞きましたが、これは本当ですか?
うまくいけば、stackoverflow の誰かが私を助けてくれます。
java - PDFから画像とそのメタデータを抽出するにはどうすればよいですか?
Javaを使用してPDFファイルから画像を抽出し、元の作成日と変更日を失うことなく特定のフォルダーにエクスポートすることは可能ですか?ITextとPDFBoxを使用してこの目標を達成しようとしましたが、成功しませんでした。どんなアイデアや例でも大歓迎です。
android - Android の PDFBox
PDFboxを使用してPDFを読み込んでAndroidにコンテンツを表示しようとしています。PDF を読み取って Android WebView に表示することしかできません。PDFを別の方法で表示する方法を誰か教えてもらえますか? それとも、PDFBox は Android と互換性がないのでしょうか?