PDF 内のパターンを検出し、何らかの形でフラグを立てたいと考えています。
たとえば、この PDFには文字列 があります*2
。*[integer]
PDF を解析し、 のすべてのインスタンスを検出し、一致に注意を喚起するために何かを実行できるようにしたいと考えています (それらを黄色で強調表示したり、余白に記号を追加するなど)。
私はこれを Python で行うことを好みますが、他の言語にも対応しています。これまでのところ、pyPdfを使用して PDF のテキストを読み取ることができました。正規表現を使用してパターンを検出できます。しかし、一致にフラグを立てて PDF を再保存する方法がわかりませんでした。