2ページを含むPDFファイルがあります。Ojective-C のパーサーで解析すると、次のような状況になります。
最初のページはすべてOKです。必要なテキストがあります(Preview、Adobe ReaderなどのPDFリーダーで視覚的に確認できます...)。2 番目のページには、2 番目のページに表示されるテキストと、2 番目のページにはない最初のページのテキストの一部があります。
私は他のパーサーで試しました: pdftotext (xpdf) 彼らは正しい結果を得ることができました。Pdfminer (python) https://pypi.python.org/pypi/pdfminer/、私と同じ結果が得られました。最初のページのテキストの一部が 2 回抽出されます。
私の質問は次のとおりです。この状況を見たことがありますか?テキストが 2 ページ目に実際に存在する場合、pdf リーダーはそれを表示しないのはなぜですか? これについて何か考えはありますか?