2

それぞれ約 100 万行の .txt ファイルが 100 個あります。

すべてのファイルを開き、重複を削除し、各ファイル (php/unix など) に応じて行を保存する方法はありますか?


例えば:

file1.txt の内容

Something here1
Something here2

file2.txt の内容

Something here2
Something here3

削除後:

file1.txt の内容

Something here1
Something here2

file2.txt の内容

Something here 3
4

3 に答える 3

1

Unix のソートと grep を使用:

行の順序が重要でない場合:

 sort -u file1.txt > _temp && mv _temp file1.txt

行の順序が重要な場合:

 awk 'FNR==NR{a[$0];next} ($0 in a) {delete a[$0]; print}' file1.txt file1.txt _temp && mv _temp file1.txt
 grep -v -f file1.txt file2.txt > _temp && mv _temp file2.txt
于 2013-08-02T12:59:33.083 に答える
0

私はこれをテストしました、それは動作します。行の順序は各ファイル内で維持されていませんが、コメントで既に適用していると述べたsortので、それは問題ではありません。少し回り道ですが、うまくいきます:

   #!/bin/bash

   #The number of files you have, named like file1.txt, file2.txt, etc.
   # If named otherwise, cahnge the definition of variable "file" in the loop below.
   NUM_FILES=3

   #These files will be created and removed during the script, so make sure they're
   # not files you already have around.
   tempfile1="_all.txt"
   tempfile2="_tmp.txt"

   sort -u file1.txt > file1out.txt
   cat file1out.txt > $tempfile1

   for i in $(seq 2 $NUM_FILES)
   do
       prev=$((i-1))
       pofile="file${prev}out.txt"
       file="file$i.txt"
       ofile="file${i}out.txt"

       echo "Input files: $file $pofile"
       echo "Output file: $ofile"
       cat $tempfile1 $pofile > $tempfile2
       sort -u $tempfile2 > $tempfile1
       sort -u $file | comm -23 - $tempfile1 > $ofile
   done

   rm -f $tempfile1 $tempfile2
于 2013-08-02T12:47:21.907 に答える
0
  • ファイルの各行を配列として取得する
$file1 = explode("\n", file_get_contents('file1.txt')); 
$file2 = explode("\n", file_get_contents('file2.txt')); 
  • array_unique を使用して、ファイル内の重複を削除します
$f1 = array_unique($file1); 
$f2 = array_unique($file2); 
  • 最初の配列と比較して、2 番目の配列から重複を削除します
$new_f2 = array_diff($f2,$f1);

これで、$f1 と $new_f2 の一意の値が得られました。

あとはファイルを更新するだけです。

注:複数のファイルの場合、これを再帰的に行います

于 2013-08-02T13:08:54.850 に答える