Web サイトの変更を追跡し、変更が発生した場合に変更内容をメールで送信するシェル スクリプトを作成しています。アイデアは、wget を使用して html のコピーを取得し、スクリプトを最後に実行したときのバージョンと比較することです。Wget は正常に動作して html ファイルを保存しますが、ファイルの比較に問題があります。問題は、コードやリンクなどではなく、html ファイルのプレーン テキストの変更のみに関心があることです。
Diff は 2 つのファイルのすべての変更を検出するように機能しますが、プレーン テキストが同一であっても常に変更を返します。これは、サイト上の各リンクには、ページにアクセスするたびに異なる、対応する認証トークンがあるためです。プレーンテキストを含む行のみを比較するために、「<」または「(any_amount_of_spaces)<」で始まる行を除外するようにフィルタリングしようとしています。diff のマニュアル ページを見てきましたが、必要なことを実行する演算子が見つからないようです。私はREGEXについてあまり知りませんが、これは diff -I で機能しますか?
ありがとう!