重複した行だけを印刷したくない、またはそれらを削除したくないと言うことから始めましょう。
パターン ファイルで grep を使用して、大きなデータ ファイルを解析しようとしています。
たとえば、パターン ファイルは次のようになります。
1243
1234
1234
1234
1354
1356
1356
1677
など、より多くの単一および重複エントリがあります。
入力データ ファイルは次のようになります。
aatta 1243 qqqqqq
yyyyy 1234 vvvvvv
ttttt 1555 bbbbbb
ppppp 1354 pppppp
yyyyy 3333 zzzzzz
qqqqq 1677 eeeeee
iiiii 4444 iiiiii
など 27000 行。
私が使うとき
grep -f 'Patternfile.txt' 'Inputfile.txt' > 'Outputfile.txt'
次のような出力ファイルが得られます。
aatta 1243 qqqqqq
yyyyy 1234 vvvvvv
ppppp 1354 pppppp
重複も報告するようにするにはどうすればよいので、最終的には次のようになりますか?:
aatta 1243 qqqqqq
yyyyy 1234 vvvvvv
yyyyy 1234 vvvvvv
yyyyy 1234 vvvvvv
ppppp 1354 pppppp
qqqqq 1677 zzzzzz
さらに、パターン ファイル内のクエリが入力ファイル内の部分文字列と一致しない場合は、空白行を出力したいと思います。
ありがとうございました!