<li>
HTML ファイルがあり、と</li>
タグの間のテキストを抽出したいと考えています。もちろん、これを行うには無数の方法がありますが、単純なシェル コマンドでこれを行う習慣を身につけると便利だと思いました。
awk '/<li[^>]+><a[^>]+>([^>]+)<\/a>/m' cities.html
問題は、これはすべてを印刷することですが、私は単純に括弧内に一致を印刷したいのですが([^>]+)
、 awk がこれをサポートしていないか、私が無能です。後者の可能性が高いようです。提供された正規表現をファイルに適用し、指定された一致のみを抽出したい場合、どのようにしますか? awk
私はすでに他の方法を半ダース知っていますが、このラウンドに勝たせる気がしません;)
編集: データは適切に構造化されていないため、位置一致 ( $1, $2, etc.
) を使用することはできません。