awk - awk 出力の外観の変更

Question

次のコードを使用して、テキストファイルからタンパク質残基を抽出しました。

awk '{
if (FNR == 1 ) print ">" FILENAME  
if ($5 == 1 && $4 > 30) {
printf $3
 }
}
END { printf "\n"}'  protein/*.txt > seq.txt

上記のコードを使用すると、次の出力が得られました。

>1abd
MDEKRRAQHNEVERRRRDKINNWIVQLSKIIPDSSMESTKSGQSKGGILSKASDYIQELRQSNHR>1axc
RQTSMTDFYHSKRRLIFS>1bxc
RQTSMTDFYHSKRRLIFSPRR>1axF
RQTSMTDFYHSKRR>1qqt
ARPYQGVRVKEPVKELLRRKRG

以下に示すような出力を取得したいのですが、上記のコードを変更して次の出力を取得するにはどうすればよいですか?

>1abd
MDEKRRAQHNEVERRRRDKINNWIVQLSKIIPDSSMESTKSGQSKGGILSKASDYIQELRQSNHR
>1axc
RQTSMTDFYHSKRRLIFS
>1bxc
RQTSMTDFYHSKRRLIFSPRR
>1axF
RQTSMTDFYHSKRR 
>1qqt
ARPYQGVRVKEPVKELLRRKRG

score 0 · Accepted Answer

gawkバージョン4では、次のように書くことができます。

gawk '
    BEGINFILE {print ">" FILENAME}
    ($5 == 1 && $4 > 30) {printf "%s",  $3}
    ENDFILE {print ""}
' filename ...

http://www.gnu.org/software/gawk/manual/html_node/BEGINFILE_002fENDFILE.html#BEGINFILE_002fENDFILE

score 0 · Accepted Answer

これはあなたのために働くかもしれません：

awk '{
if (FNR == 1 ) print newline ">" FILENAME  
    if ($5 == 1 && $4 > 30) {
        newline="\n";
        printf $3
    }
}
END { printf "\n"}'  protein/*.txt > seq.txt

awk - awk 出力の外観の変更

2 に答える 2

Related

Reference