私は、bash シェル スクリプトを使用してプロジェクトに取り組んでいます。アイデアは、Web ページ上の特定の段落をピックアップするために、取得した wget ページを grep することです。コピーしたい領域は、通常、
<p><b>
しかし、段落には、grep の出力に含めたくないアンカー タグなど、他の HTML コードも含まれています。
私が試してみました
cat page.html| grep "<p><b>" >grep.txt
次に、出力ファイルをgrepします。これには、必要な段落が含まれています
cat grep.txt|grep -v '<p>|<b>|<a>' >grep.txt
ただし、ファイルからすべてをクリアし、何も読み取らないだけです。HTMLコードのみを除外するにはどうすればよいですか?
また、それらのページで同じことを行うために、grep した段落にあるリンクをたどろうとしています。深さは 2 レベルのみであるため、メイン ページとその後のサブページは、メイン ページの最初の段落に由来します。私はこれが難しい考えであることを知っています.うまくいけば、私は助けを得るために十分に説明しました. アイデアがあれば、どんな助けでも大歓迎です。