2

私はいくつかのタンパク質配列を持っています。各配列のA残基とL残基の総数を計算したいと思います。

>p1
ALASDEKI
>p2
KLHMNA
>p3
GQMLAALM

必要な出力

ptn   A+L

p1     3
p2     2
p3     4

どうすればawkでこれを行うことができますか?

4

1 に答える 1

2

ファイル内のレコードは複数行にまたがっています。したがって、awk-v RS=''オプションを使用できます。

指図

sed 's/>/\n/' input |
    awk -vRS='' -vOFS='\t' '
        BEGIN{
            print "ptn","A+L"
        }
        {
            gsub(/[^AL]/,"",$2)
            print $1,length($2)
        }'

出力

ptn A+L
p1  3
p2  2
p3  4
于 2012-09-02T09:27:08.207 に答える