5

PDFからテキスト情報を抽出するためにpdfboxを使用しています。fontname 、 fontface 、 size 、position などのテキストのすべてのプロパティを正常に解析しました。

問題: pdfbox1.2.1 (最新バージョン) を使用しています。TextPosition クラスの getCharacter() は、最後の文字を除く完全な文字列を返します。最後の文字は別の文字列として解析されます。

例: "How are you" は、"How are yo" と "u" (2 つの別個の文字列) として解析されます。

そうなってほしくない..

誰かがこれに出くわしましたか?..私は何か間違ったことをしていますか??..返信を待っています..

よろしくお願いします、マギー

4

2 に答える 2

3

この問題は解決されました。

processEncodedText( byte[] string )の次のコードPDFStreamEngine.java

if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
{
    continue;
}

に変更する必要があります

if( spacingText == 0 && (i + codeLength) < (string.length) )
{
    continue;
}

よろしく、マギー

于 2010-08-30T12:09:29.720 に答える
1

はい。この問題は pdfbox によって解決されます。
pdfboxの最新バージョンを試してください。最新バージョンは、 http://pdfbox.apache.org/download.htmlからダウンロードできます。

于 2012-06-30T05:17:54.527 に答える