0

以下を使用して連結した大規模なデータセットを使用しています。cat file1.fasta.gz file2.fasta.gz > newfile.fasta.gz

次に、 newfile を使用して解凍します: を使用gunzip newfile.fasta.gzして、バイオインフォマティクス ソフトウェアで操作します。ガンジップには永遠に時間がかかり、コンピューターを離れて後で戻ってきます。

ある時点でプロセスが失敗し、部分的なファイルが残っているのではないかと心配しています。newfile.fastaの完全な解凍コンテンツが含まれていることを確認する方法はありnewfile.fasta.gzますか?

inb4: "コンピュータから離れないでください"

4

1 に答える 1

0

大丈夫です。心配な場合は、ファイル サイズを確認してください。newfile.fasta.gz は、file1.fasta.gz + file2.fasta.gz のサイズである必要があります。

新しいファイルを既に解凍しているように見えるので、各 fasta ファイルのシーケンス エントリの数を再確認できます。

$ gunzip -c file1.fasta.gz | grep -c '^>'
$ gunzip -c file2.fasta.gz | grep -c '^>'
$ grep -c '^>' newfile.fasta

または、「grep -c '^>'」を wc に置き換えることができる場合。

于 2015-09-07T20:59:43.777 に答える