1

私は、bash シェル スクリプトを使用してプロジェクトに取り組んでいます。アイデアは、Web ページ上の特定の段落をピックアップするために、取得した wget ページを grep することです。コピーしたい領域は、通常、

<p><b>

しかし、段落には、grep の出力に含めたくないアンカー タグなど、他の HTML コードも含まれています。
私が試してみました

cat page.html| grep "<p><b>" >grep.txt

次に、出力ファイルをgrepします。これには、必要な段落が含まれています

cat grep.txt|grep -v '<p>|<b>|<a>' >grep.txt

ただし、ファイルからすべてをクリアし、何も読み取らないだけです。HTMLコードのみを除外するにはどうすればよいですか?

また、それらのページで同じことを行うために、grep した段落にあるリンクをたどろうとしています。深さは 2 レベルのみであるため、メイン ページとその後のサブページは、メイン ページの最初の段落に由来します。私はこれが難しい考えであることを知っています.うまくいけば、私は助けを得るために十分に説明しました. アイデアがあれば、どんな助けでも大歓迎です。

4

2 に答える 2