0

次のような小さなbashスクリプトを作成しようとしています:

  • -wget は Web から [x] 分ごとに html ファイルを取得します
  • -Linuxユーティリティを使用して、最後の2つの更新間のファイルの違いを見つけます
  • - sed を使用して、新しいテキストが検出された行を変更します

私が直面している問題は、HTML ファイルがインライン CSS を使用して表をフォーマットしているのに、ページの実際のコードが 1 つの長い行に格納されていることです。

事実上、コードの 1 行をスキャンし、各タグ間のテキストのすべてのインスタンスを見つけて、それらのインスタンスを独自の行に挿入できる Linux ユーティリティが必要です。これにより、テキストのスキャンが容易になります。私が試したすべてのツールは、コード全体が 1 行に格納されているため、必要なことを実行できない行ごとに検索を行いました。

4

1 に答える 1

1

>(たとえば)をで置き換えることにより、最初にコンテンツを行に分割することができます>\n。これにより、各HTMLタグの最後にあるドキュメントが分割されます。

たぶん、それを行う必要はありません。awkのRS変数を使用して、レコード区切り文字を改行ではなく「>」として定義する場合。RSの使用例については、次のページを参照してください:http ://www.thegeekstuff.com/2010/01/8-powerful-awk-built-in-variables-fs-ofs-rs-ors-nr-nf-filename- fnr /

于 2013-02-10T00:45:40.480 に答える