perl - n番目の列の一意の要素を別のファイルに出力できるワンライナーは何ですか?

Question

次のようなファイルがあります。

n番目の列の一意の要素を別のファイルに出力できるワンライナーは何ですか?

編集：これは人々が与えた解決策のリストです。みんなありがとう！

cat in.txt | cut -d' ' -f 3 | sort -u
cut -c 1 t.txt | sort -u
awk '{ print $2 }' cols.txt | uniq
perl -anE 'say $F[0] unless $h{$F[0]}++' filename

score 10 · Accepted Answer

以前のPerlでは5.10

perl -lane 'print $F[0] unless $h{$F[0]}++' filename

その後のPerlで5.10

perl -anE 'say $F[0] unless $h{$F[0]}++' filename

出力する列に置き換え0ます。

j_random_hacker の場合、メモリをほとんど使用しない実装を次に示します (ただし、速度が遅くなり、より多くの入力が必要になります)。

perl -lane 'BEGIN {dbmopen %h, "/tmp/$$", 0600; unlink "/tmp/$$.db" } print $F[0] unless $h{$F[0]}++' filename

dbmopenは、 DBMファイル (作成または開くファイル) と %h という名前のハッシュとの間のインターフェースを作成します。%h に保存されているものはすべて、メモリではなくディスクに保存されます。unlinkでファイルを削除すると、プログラムが終了した後にファイルが残ることはありませんが、現在のプロセスには影響しません (POSIX 規則に従って、開いているファイルハンドルはファイルシステムによって実際のファイルとして扱われるため)。

score 6 · Accepted Answer

訂正:ありがとう、マーク・ルシャコフ。

$ cut -c 1 t.txt | sort | uniq

また

$ cut -c 1 t.txt | sort -u


1
4
7
9

score 3 · Accepted Answer

3 番目の列の一意の値を取得します。

$ cat in.txt | cut -d' ' -f 3 | sort -u
3
4
6
8

cut -d' 'スペースで区切られた入力を分離することを意味し、-f 3部分は3番目のフィールドを取ることを意味します。最後に、sort -u一意のエントリのみを保持して、出力を並べ替えます。

score 3 · Accepted Answer

ファイルが「cols.txt」で、2 番目の列の一意の要素が必要だとします。

awk '{ print $2 }' cols.txt | uniq

このようなユーティリティの詳細については、次の記事が役立ちます。

Linux テキストユーティリティを使用してデータ抽出を簡素化する

score 2 · Accepted Answer

awk を使用する場合、他のコマンドを使用する必要はありません

awk '!_[$2]++{print $2}' file

perl - n番目の列の一意の要素を別のファイルに出力できるワンライナーは何ですか?

5 に答える 5

Related

Reference