awk - awkでエスケープされた区切り文字（コンマ）を無視しますか？

Question

次のように、カンマをエスケープした文字列がある場合：

a,b,{c\,d\,e},f,g

awkを使用してそれを次の項目に解析するにはどうすればよいですか？

a
b
{c\,d\,e}
f
g

score 2 · Accepted Answer

{
   split($0, a, /,/)
   j=1
   for(i=1; i<=length(a); ++i) {
      if(match(b[j], /\\$/)) {
         b[j]=b[j] "," a[i]
      } else {
         b[++j] = a[i]
      }
   }
   for(k=2; k<=length(b); ++k) {
      print b[k]
   }
}

区切り文字としてa''を使用して、配列に分割します,
bから配列を作成し、' 'aで終わる行をマージします\
配列の印刷b（注：最初の項目が空白であるため、2から始まります）

このソリューションは、（今のところ）' ,'が''でエスケープされる唯一の文字であると想定しています。つまり、入力で\何も処理する必要はなく、。\\などの奇妙な組み合わせもありません\\\,\\,\\\\,,\,。

score 2 · Accepted Answer

{
  gsub("\\\\,", "!Q!")
  n = split($0, a, ",")
  for (i = 1; i <= n; ++i) {
    gsub("!Q!", "\\,", a[i])
    print a[i]
  }
}

score 1 · Accepted Answer

awkにはこのようなサポートが組み込まれているとは思いません。これは、DigitalRossほど短くはありませんが、作成した文字列（！Q！）に誤って当たる危険性がないはずのソリューションです。を使用してテストするためif、文字列の最後に実際にあるかどうかに注意するように拡張することもでき\\,ます。これは、コンマではなく、エスケープされたスラッシュである必要があります。

BEGIN {
    FS = ","
}

{
    curfield=1
    for (i=1; i<=NF; i++) {
        if (substr($i,length($i)) == "\\") {
            fields[curfield] = fields[curfield] substr($i,1,length($i)-1) FS
        } else {
            fields[curfield] = fields[curfield] $i
            curfield++
        }
    }
    nf = curfield - 1
    for (i=1; i<=nf; i++) {
        printf("%d: %s   ",i,fields[i])
    }
    printf("\n")
}

awk - awkでエスケープされた区切り文字（コンマ）を無視しますか？

3 に答える 3

Related

Reference