次のような小さなbashスクリプトを作成しようとしています:
- -wget は Web から [x] 分ごとに html ファイルを取得します
- -Linuxユーティリティを使用して、最後の2つの更新間のファイルの違いを見つけます
- - sed を使用して、新しいテキストが検出された行を変更します
私が直面している問題は、HTML ファイルがインライン CSS を使用して表をフォーマットしているのに、ページの実際のコードが 1 つの長い行に格納されていることです。
事実上、コードの 1 行をスキャンし、各タグ間のテキストのすべてのインスタンスを見つけて、それらのインスタンスを独自の行に挿入できる Linux ユーティリティが必要です。これにより、テキストのスキャンが容易になります。私が試したすべてのツールは、コード全体が 1 行に格納されているため、必要なことを実行できない行ごとに検索を行いました。