bash
私は最近、Web ページから特定のデータを解析する単純なスクリプトに取り組んでいます。私はtr '\r\n' ' ' <file1.txt >file2.txt
、ページから抽出されたすべてのデータがfile1.txt
1行に格納されていることを確認していました。したがって、この行のタグ間のすべての文字列を一致させ、それらを削除するか、記号<th>...</th>
に置き換える必要があります。' '
だからここにいくつかの例のコードがあります:
<td>Abaktal hm</td> </tr> <tr> <th>Package</th> <td>flm 10x400 mg</td> <th>Indesit</th>
私はsed
次のようなものを使用して試しました
sed -i 's/\<th\>.*?\<\/th\>/ /g' output.txt
しかし、うまくいきませんでした。?
問題は兆候だと思います。正規表現では符号で動作し?
ますが、おそらく では動作しませんbash
。