次のように、カンマをエスケープした文字列がある場合:
a,b,{c\,d\,e},f,g
awkを使用してそれを次の項目に解析するにはどうすればよいですか?
a
b
{c\,d\,e}
f
g
{
split($0, a, /,/)
j=1
for(i=1; i<=length(a); ++i) {
if(match(b[j], /\\$/)) {
b[j]=b[j] "," a[i]
} else {
b[++j] = a[i]
}
}
for(k=2; k<=length(b); ++k) {
print b[k]
}
}
a
''を使用して、配列に分割します,
b
から配列を作成し、' 'a
で終わる行をマージします\
b
(注:最初の項目が空白であるため、2から始まります)このソリューションは、(今のところ)' ,
'が''でエスケープされる唯一の文字であると想定しています。つまり、入力で\
何も処理する必要はなく、。\\
などの奇妙な組み合わせもありません\\\,\\,\\\\,,\,
。
{
gsub("\\\\,", "!Q!")
n = split($0, a, ",")
for (i = 1; i <= n; ++i) {
gsub("!Q!", "\\,", a[i])
print a[i]
}
}
awkにはこのようなサポートが組み込まれているとは思いません。これは、DigitalRossほど短くはありませんが、作成した文字列(!Q!)に誤って当たる危険性がないはずのソリューションです。を使用してテストするためif
、文字列の最後に実際にあるかどうかに注意するように拡張することもでき\\,
ます。これは、コンマではなく、エスケープされたスラッシュである必要があります。
BEGIN {
FS = ","
}
{
curfield=1
for (i=1; i<=NF; i++) {
if (substr($i,length($i)) == "\\") {
fields[curfield] = fields[curfield] substr($i,1,length($i)-1) FS
} else {
fields[curfield] = fields[curfield] $i
curfield++
}
}
nf = curfield - 1
for (i=1; i<=nf; i++) {
printf("%d: %s ",i,fields[i])
}
printf("\n")
}