PDFからテキスト情報を抽出するためにpdfboxを使用しています。fontname 、 fontface 、 size 、position などのテキストのすべてのプロパティを正常に解析しました。
問題: pdfbox1.2.1 (最新バージョン) を使用しています。TextPosition クラスの getCharacter() は、最後の文字を除く完全な文字列を返します。最後の文字は別の文字列として解析されます。
例: "How are you" は、"How are yo" と "u" (2 つの別個の文字列) として解析されます。
そうなってほしくない..
誰かがこれに出くわしましたか?..私は何か間違ったことをしていますか??..返信を待っています..
よろしくお願いします、マギー