java - Java - PDFBox - テキスト抽出

Question

PDFからテキスト情報を抽出するためにpdfboxを使用しています。fontname 、 fontface 、 size 、position などのテキストのすべてのプロパティを正常に解析しました。

問題: pdfbox1.2.1 (最新バージョン) を使用しています。TextPosition クラスの getCharacter() は、最後の文字を除く完全な文字列を返します。最後の文字は別の文字列として解析されます。

例: "How are you" は、"How are yo" と "u" (2 つの別個の文字列) として解析されます。

そうなってほしくない..

誰かがこれに出くわしましたか？..私は何か間違ったことをしていますか??..返信を待っています..

よろしくお願いします、マギー

score 3 · Accepted Answer

この問題は解決されました。

processEncodedText( byte[] string )の次のコードPDFStreamEngine.java

if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
{
    continue;
}

に変更する必要があります

if( spacingText == 0 && (i + codeLength) < (string.length) )
{
    continue;
}

よろしく、マギー

score 1 · Accepted Answer

はい。この問題は pdfbox によって解決されます。
pdfboxの最新バージョンを試してください。最新バージョンは、 http://pdfbox.apache.org/download.htmlからダウンロードできます。

2 に答える 2