python - 大きな tar.gz ファイルをキーワードで検索し、コピーして削除します

Question

大きなログ tar.gz ファイル (20 GB のものもある) を使用して、キーワードを開いて検索し、見つかったファイルをディレクトリにコピーし、ファイルを削除してディスク容量を消費しないようにする最善の方法は何ですか。以下にコードをいくつか示します。動作していましたが、何らかの理由でファイルの抽出が突然停止しました。tar から -O オプションを削除すると、ファイルが再度抽出されます。

mkdir -p found;
tar tf "$1" | while read -r FILE
do
    if tar xf "$1" "$FILE" -O  | grep -l "$2" ;then
        echo "found pattern in : $FILE";
        cp $FILE found/$(basename $FILE);
        rm -f $FILE;
    fi
done

$1 は tar.gz ファイル、$2 はキーワードです

アップデート

私は以下を実行していますが、私が持っている小さなファイルには200万以上の圧縮ファイルが含まれているため、すべてのファイルを見るのに何時間もかかります.それをより速く行うことができるpythonソリューションまたは類似のものはありますか.

#!/bin/sh
# tarmatch.sh
if grep -l "$1" ; then 
  echo  "Found keyword in ${TAR_FILENAME}";
  tar -zxvf "$2" "${TAR_FILENAME}" 
else
  echo "Not found in ${TAR_FILENAME}";
fi
true

tar -zxf 20130619.tar.gz --to-command "./tarmatch.sh '@gmail' 20130619.tar.gz "

更新 2

私は現在pythonを使用しており、速度が向上しているようで、bashバージョンが約5.Imであるのに対し、1秒間に約4000レコードを処理していました.ImはPythonでそれほど強力ではないため、おそらくこのコードを最適化できます。これが可能かどうか教えてください最適化されました。

import tarfile
import time
import os
import ntpath, sys

if len(sys.argv) < 3 :
  print "Please provide the tar.gz file and keyword to search on"
  print "USAGE: tarfind.py example.tar.gz keyword"
  sys.exit() 

t = tarfile.open(sys.argv[1], 'r:gz')
cnt = 0;
foundCnt = 0;
now = time.time()
directory = 'found/'
if not os.path.exists(directory):
    os.makedirs(directory)

for tar_info in t:
    cnt+=1;
    if (tar_info.isdir()): continue
    if(cnt%1000 == 0): print "Processed " + str(cnt) + " files"
    f=t.extractfile(tar_info)
    if sys.argv[2] in f.read():
      foundCnt +=1
      newFile = open(directory + ntpath.basename(tar_info.name), 'w');
      f.seek(0,0)
      newFile.write( f.read() )
      newFile.close()
      print "found in file " + tar_info.name

future = time.time()
timeTaken = future-now

print "Found " + str(foundCnt) + " records"
print "Time taken " + str( int( timeTaken/60) ) + " mins " + str(int(timeTaken%60)) + " seconds"
print  str( int(cnt / timeTaken)) + " records per second"
t.close()

score 1 · Accepted Answer

ファイルが実際に 20GB の場合、いずれにしても grep に非常に時間がかかります。私ができる唯一のアドバイスは、を使用することzgrepです。これにより、アーカイブを明示的に解凍する必要がなくなります。

zgrep PATTERN your.tgz

score 1 · Accepted Answer

ファイル内のキーワードを検索してそれらのみを抽出しようとしている場合、ファイルサイズが大きいため、キーワードが中間にあると時間がかかる場合があります。

私ができる最善のアドバイスは、おそらく、Solr (Lucene Indes に基づく)などの逆インデックス検索ツールと、コンテンツ分析ツールキットであるApache Tikaの強力な組み合わせを使用することです。

これらのツールを使用して tar.gz ファイルにインデックスを付けることができ、キーワードを検索すると、そのキーワードを含む関連ドキュメントが返されます。

python - 大きな tar.gz ファイルをキーワードで検索し、コピーして削除します

2 に答える 2

Related

Reference