bash - 列の一意の値ごとに行全体を 1 回出力する (Bash)

Question

これは確かに些細な作業であるに違いありませんが、awk今朝は頭を悩ませていました。次のような形式のファイルがあります。

pep> AEYTCVAETK     2   genes ADUm.1024,ADUm.5198,ADUm.750
pep> AIQLTGK        1   genes ADUm.1999,ADUm.3560
pep> AIQLTGK        8   genes ADUm.1999,ADUm.3560
pep> KHEPPTEVDIEGR  5   genes ADUm.367
pep> VSSILEDKTT     9   genes ADUm.1192,ADUm.2731
pep> AIQLTGK        10  genes ADUm.1999,ADUm.3560
pep> VSSILEDKILSR   3   genes ADUm.2146,ADUm.5750
pep> VSSILEDKILSR   2   genes ADUm.2146,ADUm.5750

列 2 のペプチドの個別の値ごとに行を出力したいと思います。つまり、上記の入力は次のようになります。

pep> AEYTCVAETK     2   genes ADUm.1024,ADUm.5198,ADUm.750
pep> AIQLTGK        1   genes ADUm.1999,ADUm.3560
pep> KHEPPTEVDIEGR  5   genes ADUm.367
pep> VSSILEDKTT     9   genes ADUm.1192,ADUm.2731
pep> VSSILEDKILSR   3   genes ADUm.2146,ADUm.5750

これは私がこれまでに試したことですが、明らかに私が必要としているものもありません:

awk '{print $2}' file | sort | uniq
# Prints only the peptides...
awk '{print $0, "\t", $1}' file |sort | uniq -u -f 4
# Altogether omits peptides which are not unique...

最後にもう 1 つ、他のペプチドの部分文字列であるペプチドを個別の値 (VSSILED と VSSILEDKILSR など) として扱う必要があります。ありがとう：）

score 20 · Accepted Answer

並べ替えを使用するだけです。

sort -k 2,2 -u file

は-u（必要に応じて）重複するエントリを削除-k 2,2し、フィールド2だけを並べ替えフィールドにします（したがって、重複をチェックするときに残りを無視します）。

score 15 · Accepted Answer

使用する1つの方法awk：

awk '!array[$2]++' file.txt

結果：

pep> AEYTCVAETK     2   genes ADUm.1024,ADUm.5198,ADUm.750
pep> AIQLTGK        1   genes ADUm.1999,ADUm.3560
pep> KHEPPTEVDIEGR  5   genes ADUm.367
pep> VSSILEDKTT     9   genes ADUm.1192,ADUm.2731
pep> VSSILEDKILSR   3   genes ADUm.2146,ADUm.5750

score 2 · Accepted Answer

これにはPerlを使用します。

perl -nae 'print unless exists $seen{$F[1]}; undef $seen{$F[1]}' < input.txt

スイッチはn入力に対して行ごとに機能し、スイッチは行を配列aに分割します。@F

score 2 · Accepted Answer

awk '{if($2==temp){next;}else{print}temp=$2}' your_file

以下でテスト：

> awk '{if($2==temp){next;}else{print}temp=$2}' temp
pep> AEYTCVAETK         2       genes ADUm.1024,ADUm.5198,ADUm.750
pep> AIQLTGK            1       genes ADUm.1999,ADUm.3560
pep> KHEPPTEVDIEGR      5       genes ADUm.367
pep> VSSILEDKTT         9       genes ADUm.1192,ADUm.2731
pep> AIQLTGK            10      genes ADUm.1999,ADUm.3560
pep> VSSILEDKILSR       3       genes ADUm.2146,ADUm.5750

bash - 列の一意の値ごとに行全体を 1 回出力する (Bash)

4 に答える 4

Related

Reference