次のような HTML 出力からデータを取得しようとしています。
<strong>Target1NoSpaces</strong><span class="creator"> ....
<strong>Target2 With Spaces</strong><span class="creator"> ....
パイプトレインを使用して、ヒットしようとしているターゲットにデータを絞り込んでいます。これまでの私のアプローチは次のとおりです。
grep "/strong" output.html | awk '{print $1}'
「/strong」を grep して、ターゲットの行を取得します。それはうまくいきます。
「awk '{print $1}」にパイプします。ターゲットにスペースがない場合は #1 で動作しますが、ターゲットにスペースがある場合は #2 で失敗します。次のように最初の単語のみが保持されます。
<strong>Target1NoSpaces</strong><span
<strong>Target2
私のawkまたは別のコマンドで、ターゲットを適切にヒットするためのヒントはありますか? 手っ取り早いもの (grep、awk、sed、perl) を歓迎します。