LaTeXソースに由来するいくつかのPDFファイルでこの問題に気づきました(ページのレイアウト/デザインと使用されているフォントからだと思います)。
そのため、今日私はそのような記事を読んでいて、意味のあるテキストをコピーすることも、テキスト検索を行うこともできず、もちろんドキュメントのインデックスを作成することもできませんでした。これが1つのランダムな例です:http ://www.vincent-net.com/luc/papers/00informatica_granul.pdf
いくつかの手順はありますか、私はこの種の文書にアクセスできるようにすることができます。私の頭に浮かぶのは、ドキュメントをラスタライズしてから、保存するときにOCRを実行することだけですが、それはばかげていると感じます。