awk - テキストファイルで重複する単語を削除するにはどうすればよいですか

Question

私はテキストファイルを持っています:

abandonovať
abandonovať, neabandonovať
abandonovať, abandonujem
abandonovať, abandonuješ
abandonovať, abandonuje
abandonovať, abandonuje
abandonovať, abandonuje
abandonovať, neabandonujem
abandonovať, neabandonuješ

そして、重複する単語をすべて削除したいと思います。次のようになります。

abandonovať
neabandonovať
abandonujem
abandonuješ
abandonuje
neabandonujem
neabandonuješ

GREP、AWKでそれを作成する方法を誰か知っていますか...？

score 4 · Accepted Answer

を使用する 1 つの方法を次に示しGNU awkます。

awk -F "[, ]" '{ for(i=1;i<=NF;i++) if (!a[$i]++ && $i != "") print $i }' file

結果：

abandonovať
neabandonovať
abandonujem
abandonuješ
abandonuje
neabandonujem
neabandonuješ

score 4 · Accepted Answer

あなたは使用しようとするかもしれません：

grep -o '\w*' a.txt | sort | uniq

a.txt はあなたのファイルです。

score 0 · Accepted Answer

ありがとう、GREPでは動作しますが、単語をアルファベット順にソートします。AWK でも動作しますが、もう 1 つ小さな問題があります。私のテキストファイルは次のとおりです。

abandonovať
abandonovať, neabandonovať
abandonovať, abandonujem
.
.
.

コードを awk に入力すると、結果は次のようになります。

abandonovať
abandonovať,
neabandonovať
abandonujem
.
.
.

1つの単語が2回あります。1 回は "," を使用し、もう 1 回は "," を使用しません。

awk - テキストファイルで重複する単語を削除するにはどうすればよいですか

3 に答える 3

Related

Reference