たくさんの PDF を読み込んでテキストを抜き出そうとしています。FlateDecode を使用するサンプル テキストの半分では、 を使用するだけgzuncompress
で、解析してテキストを取得できるものが返されます。
Tw [(remains an unresolved theoretical and pragmatic conundr)]
しかし、gzuncompress()
私が戻った後、次のような場合もあります:
TD [(\002\016\032)-233.5 (\017\004\t/+\013\r\016\013\004\024\f)-233.5
(\b\002\017\004\032)-233.5 (\004;\024\t\002\016\002\f\n\r\016\017)-233.4
(\r/)-233.5 (\013\022\002\023\n\017 \002\f\n\013)-233.4
(\t\004\002\032\004\023\017\022\n\024)-233.5 (1\004\020\003\020\033)-233.5
(\001\022\002 \n\023)]TJ
PDFから他のテキストを取得できず、テキスト内にあるため、これはテキストであると確信していますBT ... ET
この 2 番目の形式とは何ですか?どうすれば読みやすい形式に変換できますか?