0

pdfminerに基づくプログラムを使用して 12 ページの pdf ファイルからコンテンツを抽出すると、11 ページしかない間違った結果が得られました。他のファイルでテストしたところ、ほとんどの場合、正しい結果が得られました。

うっかりOS X Yosemite(v10.10.4)のプレビューアプリで開いてしまい、そのまま保存してしまいました。その後、プログラムから得た結果は正しかった。このファイルのサイズがプレビューで 2m から 300k に変更されていることがわかりましたが、それが何をしたのかわかりません。

私は答えを探してみましたが、ほとんどのトピックはプレビューアプリのエクスポート機能を使用してpdfファイルを圧縮することに関するものであり、誰もpdfminerでも同じ問題に遭遇していないようです.

1、「保存」すると、プレビューアプリはPDFファイルで何をしますか?

2、どうすれば問題に対処できますか?

前もって感謝します!

4

1 に答える 1

1

PDF は複雑なファイル形式であり、さまざまな機能や方法をサポートしています。あなたの pdfminer アプリには、これらの機能の一部に問題があるようで、特定のファイルを誤って解釈する原因となっています。一方、プレビューはすべてを正しくサポートしているようで、ファイルを内部プレゼンテーション形式に正しく読み取ることができました。その後、ファイルを再保存すると、Preview は同じ情報を書き込む方法でファイルを書き込みました。繰り返しますが、同じことを行うさまざまな方法は、異なるプログラムが異なる方法で行うことを意味します。

Preview は明らかに、同じコンテンツを表現するためのより優れた、より互換性のある、より合理的な方法を持っています。あなたのpdfminerはそれをよりよく処理できます。

于 2015-08-25T10:08:02.373 に答える