bash - grep で HTML コードを除外する

翻译自：https://stackoverflow.com/questions/16476056 2013-05-10T05:56:18.477

819 次

私は、bash シェルスクリプトを使用してプロジェクトに取り組んでいます。アイデアは、Web ページ上の特定の段落をピックアップするために、取得した wget ページを grep することです。コピーしたい領域は、通常、

<p><b>

しかし、段落には、grep の出力に含めたくないアンカータグなど、他の HTML コードも含まれています。
私が試してみました

cat page.html| grep "<p><b>" >grep.txt

次に、出力ファイルをgrepします。これには、必要な段落が含まれています

cat grep.txt|grep -v '<p>|<b>|<a>' >grep.txt

ただし、ファイルからすべてをクリアし、何も読み取らないだけです。HTMLコードのみを除外するにはどうすればよいですか?

また、それらのページで同じことを行うために、grep した段落にあるリンクをたどろうとしています。深さは 2 レベルのみであるため、メインページとその後のサブページは、メインページの最初の段落に由来します。私はこれが難しい考えであることを知っています.うまくいけば、私は助けを得るために十分に説明しました. アイデアがあれば、どんな助けでも大歓迎です。

bash - grep で HTML コードを除外する

2 に答える 2

Related

Reference