3

サーバーには何百もの PDF ファイルがあります。検索可能なテキストを含むものと含まないものがあります。

どれが検索可能でどれがそうでないかを調べるように求められました。

たくさんのPDFを読み込んで、そのPDFドキュメントに検索可能/選択可能なテキストが含まれているかどうか、またはPDFにOCRが必要な選択不可能/検索可能なテキストのみが含まれているかどうかを判断する方法を知っている人はいますか?

テキストを実際に読む必要さえありません。おそらくタグやキーワードによって、生データにフォントなどがあることを示唆するものを検出できる必要があります。

検索可能な PDF に、簡単に検出できるタグはありますか?

ありがとう

4

1 に答える 1