私はPDFMinerを使用していくつかのpdfレポートをプレーンテキストに変換しています.私の入力pdfの束は、いくつかの認識された行と、このような(cid:%d)のリストで出てきます...
検査報告
(cid:4)(cid:5)(cid:6)(cid:7)(cid:8)(cid:9) (cid:10)(cid:9)(cid:11)(cid:9) (cid:12)(cid:9)(cid:5)(cid:13)(cid:9) (cid:14)(cid:8)(cid:15)(cid:16)(cid:9) (cid:12) (cid:17)(cid:18)(cid:13)(cid:19)(cid:20) (cid:21)(cid:8)(cid:22)(cid:23) (cid:18)(cid:12)(cid:6)(cid:22)(cid:24) (cid:25)(cid:5)(cid:26)(cid:27)(cid:9) (cid:13)(cid:22)(cid:6)(cid:18)(cid:5) (cid:5)(cid:8)(cid:15)(cid:16)(cid:9) (シド:12)
調べてみると、ドキュメントの大部分が抽出に抵抗しているフォントにあることが問題だと思います。フォントが一晩で変わるように見えたので、問題のデバッグはちょっと奇妙でした (方法は聞かないでください、ただ変更しただけです)。
何が重要なのかはわかりませんが、今日、フォントには次のプロパティがあります。
name = 'font0000000018f29a3e' - cidcoding = 'Adobe-Identity'- unicode_map = 'UnicodeMap: /Adobe-Identity-UCS' - unicode_map.cid2unichr = {}
Macで2.7を使用していて、いくつか試しました
- PyPDF2
- テキストエディットにコピペ(文字は空欄)
- cmaps の再構築によるアンインストールと再インストール
- 本機の電源を入れ直す
参考までに、レポートはすべて同様の形式であり、そのうちの 1 つがここにあります。
http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf
この問題は、2010 年 9 月より前に発行されたすべてのレポートに適用されます。