regex - 1 つのファイルで単語を grep し、その単語を使用して FASTA ファイルで一致させ、最初のファイルに FASTA シーケンスを追加します。

Question

file1 のいくつかの単語を grep し、各単語を使用して、file2.fasta で一致した後に続くものを grep します。そして、file03 に使用した単語に一致の後に続くものを追加して、file03 に両方のファイルからの情報が含まれるようにします。私が持っているファイルの一部は次のとおりです。

ファイル1:

Jan12345: ID1 ID2 ... IDN1
Jan67899: ID11 ID12 ... IDN2

Fasta ファイル (file2) は次のようになります。

>ID1
ABCDEFG
>ID2
HIJKLMN
>IDN1
OPQRSTU
>ID11
WXYZABC
>ID12
DEFGHIJ
>IDN2
KLMNOPQ

私が望む出力は、この例です：

Jan12345 ID1 ABCDEFG ID2 HIJKLMN ... IDN1 OPQRSTU
Jan67899: ID11 WXYZABC ID12 DEFGHIJ... IDN2 KLMNOPQ

ご覧のとおり、file2 に含まれている FASTA シーケンスを file1 に追加したいだけです。誰かがこれを行う方法を知っていれば、私はそれを大いに感謝します!

score 2 · Accepted Answer

片道awk

awk '
NR==FNR && /\>/ {
    x=$0
    getline b
    a[substr(x,2)]=b
    next
} 
{
    for (i=2;i<=NF;i++) {
        for (k in a) {
            if ($i==k) {
                $i=$i" "a[k]
            }
        }
    }
}1' file2 file1

一発ギャグ：

awk 'NR==FNR{NF==2?k=$2:a[k]=$1;next}{for(i=2;i<=NF;i++){for(k in a){$i=$i==k?$i OFS a[k]:$i}}}1' FS="[> ]" file{2,1}

サンプルデータを出力します。

$ awk 'NR==FNR {NF==2?k=$2:a[k]=$1;next}{for(i=2;i<=NF;i++){for(k in a){$i=$i==k?$i OFS a[k]:$i}}}1' FS="[> ]" file{2,1}
Jan12345: ID1 ABCDEFG ID2 HIJKLMN IDN1 OPQRSTU
Jan67899: ID11 WXYZABC ID12 DEFGHIJ IDN2 KLMNOPQ

score 2 · Accepted Answer

fasta/file2 ファイルを%hハッシュに読み込み、file1 のすべての行を置換します。

perl -pe 'BEGIN{open F,pop;%h=map{y|\r\n>||d;$_}<F>} s|(ID\S+)|$1 $h{$1}|g' file1 file2

score 1 · Accepted Answer

GNU sedの醜い方法：

ステップ I : コマンドスクリプトを作成する

sed -r 's#^(\S+)\s+#${x;s/^\\s\\\|>//g;p};1{s/.*/\1/;h};/\n#;h;s/\n.*//;x;s/.*\n//;:ka;s#(\S+)\s*#\\b\1\\b\\| #;H;g;s/\n(\S+).*/\1/;x;s/.*\n\S+\s*//;tka;s/\\\|\n/\/!d;$!N;H;x;s\/\\n\/ \/g;x/' file1 > file.sed

ステップ II : bash で結果ファイルを作成する

#!/bin/bash
while read p; do 
sed -n $p file2
done < file.sed > file3

regex - 1 つのファイルで単語を grep し、その単語を使用して FASTA ファイルで一致させ、最初のファイルに FASTA シーケンスを追加します。

3 に答える 3

一発ギャグ：

サンプル データを出力します。

GNU sedの醜い方法：

Related

Reference

サンプルデータを出力します。