1

最近、非常に奇妙なデータ破損の問題が発生しています。基本的に私がしていることは次のとおりです。

  1. 「scp」を使用して、1 つのサーバーから hpcc (ハイ パフォーマンス コンピューティング) にいくつかの大きなデータ (50 ファイル、それぞれ約 8 GB) を転送します。
  2. 入力ファイルの各行を処理し、それらの変更された行を出力ファイルに追加/書き込みます。そして、「qsub -t 1-1000 xxx.sh」によって hpcc でこれを行います。これは、1000 個のジョブすべてを同時に破棄します。また、これらの 1000 のジョブは、平均してそれぞれ 4GB のメモリを使用しています。

私のスクリプトの基本的な形式は次のとおりです。

f=open(file)
for line in f:
#process lines

また

f=open(file).readlines()
#process lines

ただし、奇妙な点は、時々、データの一部にデータの破損が見られることです。

  1. まず、「入力」データの一部が破損していることに気付きました (すべてではない)。それが「scp」の問題かどうかは疑問です。私は何人かのコンピューター関係者に尋ね、ここにも投稿しましたが、「scp」がデータを歪める可能性はほとんどないようです。そして、「scp」を実行して、データを再びhpccに転送します。今回の入力データはOKになります。変ですよね?したがって、これは私に考えさせます: メモリ/CPU 使用率の高いプログラムを実行するために使用されることによって、入力データが中断される可能性はありますか?

  2. 入力データが壊れている場合、出力も壊れているのはごく自然なことです。次に、入力データを再び hpcc に転送し、それらすべてが良好な状態であることを確認します。次に、プログラムを実行します (1000 ジョブを一緒に実行することを指摘する必要があります)。出力ファイルは...ほとんどが良い; しかし、非常に驚​​くべきことに、たった 1 つのファイルの一部が破損しています。したがって、この特定のファイルに対してプログラムを単独で再度実行すると、破損することなく適切な出力が得られます!! 私はとても混乱しています......非常に多くの奇妙なことを見た後、私の唯一の結論は次のとおりです。多くのメモリ集約型ジョブを同時に実行すると、データが損なわれるのではないでしょうか? (しかし、私はそのような仕事もたくさん実行していましたが、大丈夫そうです)

データの破損とは、次のことを意味します。

このようなもの:

CTTGTTACCCAGTTCCAAAG9583gfg1131CCGGATGCTGAATGGCACGTTTACAATCCTTTAGCTAGACACAAAAGTTCTCCAAGTCCCCACCAGATTAGCTAGACACAGAGGGCTGGTTGGTGCATCT0/1
gfgggfgggggggggggggg9583gfg1131CCGGAfffffffaedeffdfffeffff`fffffffffcafffeedffbfbb[aUdb\``ce]aafeeee\_dcdcWe[eeffd\ebaM_cYKU]\a\Wcc0/1
CTTGTTACCCAGTTCCAAAG9667gfg1137CCGGATCTTAAAACCATGCTGAGGGTTACAAA1AGAAAGTTAACGGGATGCTGATGTGGACTGTGCAAATCGTTAACATACTGAAAACCTCT0/1
gfgggfgggggggggggggg9667gfg1137CCGGAeeeeeeeaeeb`ed`dadddeebeeedY_dSeeecee_eaeaeeeeeZeedceadeeXbd`RcJdcbc^c^e`cQ]a_]Z_Z^ZZT^0/1

ただし、次のようにする必要があります。

@HWI-ST150_0140:6:2204:16666:85719#0/1
TGGGCTAAAAGGATAAGGGAGGGTGAAGAGAGGATCTGGGTGAACACACAAGAGGCTTAAAGCATTTTATCAAATCCCAATTCTGTTTACTAGCTGTGTGA
+HWI-ST150_0140:6:2204:16666:85719#0/1
gggggggggggggggggfgggggZgeffffgggeeggegg^ggegeggggaeededecegffbYdeedffgggdedffc_ffcffeedeffccdffafdfe
@HWI-ST150_0140:6:2204:16743:85724#0/1
GCCCCCAGCACAAAGCCTGAGCTCAGGGGTCTAGGAGTAGGATGGGTGGTCTCAGATTCCCCATGACCCTGGAGCTCAGAACCAATTCTTTGCTTTTCTGT
+HWI-ST150_0140:6:2204:16743:85724#0/1
ffgggggggfgeggfefggeegfggggggeffefeegcgggeeeeebddZggeeeaeed[ffe^eTaedddc^Oacccccggge\edde_abcaMcccbaf
@HWI-ST150_0140:6:2204:16627:85726#0/1
CCCCCATAGTAGATGGGCTGGGAGCAGTAGGGCCACATGTAGGGACACTCAGTCAGATCTATGTAGCTGGGGCTCAAACTGAAATAAAGAATACAGTGGTA
4

0 に答える 0