1

たくさんの PDF を読み込んでテキストを抜き出そうとしています。FlateDecode を使用するサンプル テキストの半分では、 を使用するだけgzuncompressで、解析してテキストを取得できるものが返されます。

Tw [(remains an unresolved theoretical and pragmatic conundr)]

しかし、gzuncompress()私が戻った後、次のような場合もあります:

TD [(\002\016\032)-233.5 (\017\004\t/+\013\r\016\013\004\024\f)-233.5 
    (\b\002\017\004\032)-233.5 (\004;\024\t\002\016\002\f\n\r\016\017)-233.4
    (\r/)-233.5 (\013\022\002\023\n\017 \002\f\n\013)-233.4
    (\t\004\002\032\004\023\017\022\n\024)-233.5 (1\004\020\003\020\033)-233.5
    (\001\022\002 \n\023)]TJ

PDFから他のテキストを取得できず、テキスト内にあるため、これはテキストであると確信していますBT ... ET

この 2 番目の形式とは何ですか?どうすれば読みやすい形式に変換できますか?

4

1 に答える 1