を使用wget
して html Web サイトをダウンロードし、使用sed
するコンテンツを抽出できます。何かのようなもの
wget http://kos.hdsat.pl/menu-20.html && sed -n '/<textarea/,${/<\/textarea/q; s/<.*>//g; p}' menu-20.html > Oscam.srvid
仕事をすることができました。
ここで何が起こっているのですか?
wget http://kos.hdsat.pl/menu-20.html
ファイルをダウンロードします。成功した場合は実行しますsed
が、オプションですべての出力を抑制します-n
。次に、「textarea」の最初の出現を探し、ドキュメントの最後まで出力します ( $
; 実際にはドキュメントの最後まで出力するのではなく、後で quit ステートメントを使用します)。これらの行で、次のsed
コマンドを実行します。
/<\/textarea/q
「<\textarea」を見つけたらすぐに終了します。
s/<.*>//g
すべての <> ブラケット、つまり HTML タグを削除します。
p
出力を抑制したため、すべての行を印刷します。
これは Web サイトではうまくいきましたが、Web サイトが変更されると失敗する可能性があります。たとえば、<textarea>
実際に探している要素の前に導入された別の要素がある場合、 this のコンテンツが抽出されます<textarea>
。次に、または類似のものsed
を検索して、コマンドを絞り込むことができます。Oscam.srvid