parsing - PDFを解析すると、異なるページで同じテキストが2回取得されます

翻译自：https://stackoverflow.com/questions/16896246 2013-06-03T12:00:55.570

372 次

2ページを含むPDFファイルがあります。Ojective-C のパーサーで解析すると、次のような状況になります。

最初のページはすべてOKです。必要なテキストがあります（Preview、Adobe ReaderなどのPDFリーダーで視覚的に確認できます...）。2 番目のページには、2 番目のページに表示されるテキストと、2 番目のページにはない最初のページのテキストの一部があります。

私は他のパーサーで試しました: pdftotext (xpdf) 彼らは正しい結果を得ることができました。Pdfminer (python) https://pypi.python.org/pypi/pdfminer/、私と同じ結果が得られました。最初のページのテキストの一部が 2 回抽出されます。

私の質問は次のとおりです。この状況を見たことがありますか？テキストが 2 ページ目に実際に存在する場合、pdf リーダーはそれを表示しないのはなぜですか? これについて何か考えはありますか？

parsing - PDFを解析すると、異なるページで同じテキストが2回取得されます

1 に答える 1

Related

Reference