私はたくさんのPDFファイルを持っています。それらのいくつかでは、PDF から任意のテキスト エディターにテキストを簡単にコピー/貼り付けできます。他のものでは、コピー/貼り付けはガベージ (奇妙な、判読できない文字) のみを生成します。私が今理解しているように、これは埋め込みフォントやカスタム エンコーディングが原因です (ただし、間違っている可能性があります)。
10 個の PDF を選択し、pdffonts
フォント関連の情報を抽出するために使用しました。c (正しい) で始まる PDF からはコピーできますが、w (間違った) で始まる PDF からはコピーできません。pdffonts
コマンドの出力は以下です。
カスタム エンコードの存在によって間違ったドキュメントを識別できるというのは本当ですか? つまり、カスタム エンコーディングがある場合、PDF からテキストをコピーして貼り付けることはできませんか?
./comparison/c1.pdf
name type encoding emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
DDDWSC+MyriadPro-Regular CID Type 0C Identity-H yes yes yes 9
DDDWSC+MyriadPro-Bold CID Type 0C Identity-H yes yes yes 18
XPQSAJ+MinionPro-Regular CID Type 0C Identity-H yes yes yes 36
QQNHBI+MyriadPro-Regular CID Type 0C Identity-H yes yes yes 121
MyriadPro-Regular Type 1C (OT) WinAnsi yes no no 82
./comparison/c2.pdf
name type encoding emb sub uni object I
------------------------------------ ----------------- ---------------- --- --- --- ---------
GBITER+MyriadPro-Regular CID Type 0C Identity-H yes yes yes 9
GBITER+MyriadPro-Bold CID Type 0C Identity-H yes yes yes 18
TPIJNO+MinionPro-Regular CID Type 0C Identity-H yes yes yes 36
HCPLUP+MyriadPro-Regular CID Type 0C Identity-H yes yes yes 99
CFAHCZ+MyriadPro-Regular CID Type 0C Identity-H yes yes yes 100
MyriadPro-Regular Type 1C (OT) WinAnsi yes no no 82
./comparison/c3.pdf
name type encoding emb sub uni object
------------------------------------ ----------------- ---------------- --- --- --- --------
FTWOKY+MyriadPro-Regular CID Type 0C Identity-H yes yes yes 8
FTWOKY+MyriadPro-Bold CID Type 0C Identity-H yes yes yes 9
HDAKMN+MinionPro-Regular CID Type 0C Identity-H yes yes yes 34
CYRRXP+MyriadPro-Regular CID Type 0C Identity-H yes yes yes 119
MyriadPro-Regular Type 1C (OT) WinAnsi yes no no 80
./comparison/c4.pdf
name type encoding emb sub uni object
------------------------------------ ----------------- ---------------- --- --- --- --------
TimesNewRoman CID TrueType Identity-H yes no yes 8
TimesNewRoman,Bold CID TrueType Identity-H yes no yes 9
TimesNewRoman,BoldItalic CID TrueType Identity-H yes no yes 30
TimesNewRomanPSMT TrueType WinAnsi no no no 10
TimesNewRomanPS-BoldMT TrueType WinAnsi no no no 31
TimesNewRomanPS-BoldItalicMT TrueType WinAnsi no no no 32
Arial-BoldItalicMT TrueType WinAnsi no no no 33
CPWIYN+MinionPro-Regular CID Type 0C Identity-H yes yes yes 56
PZAZAE+MyriadPro-Regular CID Type 0C Identity-H yes yes yes 120
MyriadPro-Regular Type 1C (OT) WinAnsi yes no no 102
./comparison/c5.pdf
name type encoding emb sub uni object
------------------------------------ ----------------- ---------------- --- --- --- -------
TimesNewRoman CID TrueType Identity-H yes no yes 9
TimesNewRoman,Bold CID TrueType Identity-H yes no yes 10
TimesNewRomanPSMT TrueType WinAnsi no no no 11
TimesNewRomanPS-BoldMT TrueType WinAnsi no no no 12
PKLOUG+MinionPro-Regular CID Type 0C Identity-H yes yes yes 43
ZWNFNP+MyriadPro-Regular CID Type 0C Identity-H yes yes yes 120
MyriadPro-Regular Type 1C (OT) WinAnsi yes no no 89
./comparison/w1.pdf
name type encoding emb sub uni object
------------------------------------ ----------------- ---------------- --- --- --- --------
ECCDLD+TimesNewRomanPSMT Type 1C WinAnsi yes yes no 5
ECCDMD+TimesNewRoman Type 1C Custom yes yes no 6
ECCDNE+TimesNewRomanPS-BoldMT Type 1C WinAnsi yes yes no 7
ECCDNF+TimesNewRoman,Bold Type 1C Custom yes yes no 8
MinionPro-Regular-Identity-H CID Type 0C Identity-H yes no no 24
./comparison/w2.pdf
name type encoding emb sub uni object
------------------------------------ ----------------- ---------------- --- --- --- --------
DIKJDI+TimesNewRoman,Bold Type 1C Custom yes yes no 5
DIKJEJ+TimesNewRomanPS-BoldMT Type 1C WinAnsi yes yes no 6 0
DIKJEK+TimesNewRomanPSMT Type 1C WinAnsi yes yes no 7
DIKJEL+TimesNewRoman Type 1C Custom yes yes no 8
MinionPro-Regular-Identity-H CID Type 0C Identity-H yes no no 22
./comparison/w3.pdf
name type encoding emb sub uni object
------------------------------------ ----------------- ---------------- --- --- --- --------
LLHACL+Calibri Type 1C Custom yes yes yes 5
LLHACM+Calibri-Bold Type 1C Custom yes yes yes 6
LLHBBI+Calibri-Italic Type 1C Custom yes yes yes 20
MinionPro-Regular-Identity-H CID Type 0C Identity-H yes no no 21
./comparison/w4.pdf
name type encoding emb sub uni object
------------------------------------ ----------------- ---------------- --- --- --- --------EPGNDG+TimesNewRoman Type 1C Custom yes yes no 5
EPGNDH+TimesNewRomanPSMT Type 1C WinAnsi yes yes no 6
EPGNDI+TimesNewRomanPS-BoldMT Type 1C WinAnsi yes yes no 7
EPGNGI+TimesNewRoman,Bold Type 1C Custom yes yes no 8
MinionPro-Regular-Identity-H CID Type 0C Identity-H yes no no 19
OXKXLW+MyriadPro-Regular CID Type 0C Identity-H yes yes yes 60
MyriadPro-Regular Type 1C WinAnsi yes no no 52
./comparison/w5.pdf
name type encoding emb sub uni object
------------------------------------ ----------------- ---------------- --- --- --- --------
JPDEFN+TimesNewRoman Type 1C Custom yes yes no 5
JPDEHN+TimesNewRomanPSMT Type 1C WinAnsi yes yes no 6
JPDEIN+TimesNewRomanPS-BoldMT Type 1C WinAnsi yes yes no 7
JPDEJO+TimesNewRoman,Bold Type 1C Custom yes yes no 8 MinionPro-Regular-Identity-H CID Type 0C Identity-H yes no no 25