私の正規表現は悲しいことに不足しており、「Mastering Regex」を読んだり、いくつかのオンラインチュートリアルを読んだりしていますが、どこにも行きません。
入力ファイルは大まかに次のようになります。
<html>
<head>
<title>My Title</title>
</head>
<body>
<p>Various random text...</p>
<ul>
<li>One</li>
<li><a href="example.com">Two</a></li>
<li>Three</li>
</ul>
<p>Various random text...</p>
</body>
</html>
私の最終的な目標は、出力することです:
My Title,One,<a href="example.com">Two</a>,Three
例: タイトル付きのコンマ区切りの値と、li タグの内容
ただし、最初のステップは、タイトルを含むすべてを削除することです.sedを使用することにしたので(WindowsでGNU sedバージョン4.2を実行しています)、次のようにします:
タイトルタグまでの改行を含む「すべて」を一致させ、意味のないものに置き換える必要があると考えています。
すべての文字をドットと一致させ、改行 /n も一致させて、クラスを作成し、* で繰り返すようにします。
それで
type file.html | sed "s/[.\n]*<title>//"
しかし、これは機能しません。文字列のタイトルを削除するだけで、その前のものは削除しません。
どこが間違っていますか?理解したい。
アドバイスをいただければ幸いです。前もって感謝します。