python - Python でのテキストファイルの繰り返しセクションの for ループ

Question

私はプログラミングと Python の初心者で、DLPOLY HISTORY ファイルを arc ファイルに変換しようとしています。私がする必要があるのは、格子ベクトル (timestep という単語の下の 3x3 配列)、x、y、z 座標 (各要素の下の行の 3 つのエントリ)、および電荷 (次の行の 4 番目のエントリ) を抽出することです。エレメント）。

理想的には、最終的に任意のサイズとフレーム長のファイルを変換できるようにしたいと考えています。

DLPOLY HISTORY ファイルの 2 つの見出し行と最初の 2 つのフレームは次のようになります。

File Title
         0         3         5                  136                 1906
timestep         0         5 0 3            0.000500            0.000000
        3.5853000000        0.0000000000        0.0000000000
       -1.7926500000        3.1049600000        0.0000000000
        0.0000000000        0.0000000000        4.8950000000
Ca               1   40.078000    1.050000    0.000000
     0.000000000         0.000000000         0.000000000
O                2   15.999400   -0.950000    0.000000
     1.792650000        -1.034986100         1.140535000
H                3    1.007940    0.425000    0.000000
     1.792650000        -1.034986100         1.933525000
O                4   15.999400   -0.950000    0.000000
    -1.792650000         1.034987000        -1.140535000
H                5    1.007940    0.425000    0.000000
    -1.792650000         1.034987000        -1.933525000
timestep        10         5 0 3            0.000500            0.005000
         3.5853063513        0.0000000000        0.0000000000
        -1.7926531756        3.1049655004        0.0000000000
         0.0000000000        0.0000000000        4.8950086714
Ca               1   40.078000    1.050000    0.020485
    -0.1758475885E-01    0.1947928245E-04   -0.1192033544E-01
O                2   15.999400   -0.950000    0.051020
     1.841369991        -1.037431082         1.120698646 
H                3    1.007940    0.425000    0.416965
     1.719029690        -1.029327936         2.355541077
O                4   15.999400   -0.950000    0.045979
    -1.795057186         1.034993005        -1.093028694
H                5    1.007940    0.425000    0.373772 
    -1.754959531         1.067269072        -2.320776528

これまでのところ、私が持っているコードは次のとおりです。

fileList = history_file.readlines()
number_of_frames = int(fileList[1].split()[3])
number_of_lines = int(fileList[1].split()[4])
frame_length = (number_of_lines - 2) / number_of_frames
number_of_atoms = int(fileList[1].split()[2])
lines_per_atom = frame_length / number_of_atoms

for i in range(3, number_of_lines+1, frame_length):

#maths for converting lattice vectors
#print statement to write out converted lattice vectors

    for j in range(i+3, frame_length+1, lines_per_atom):
             atom_type = fileList[j].split()[0]
             atom_x = fileList[j+1].split()[0]
             atom_y = fileList[j+1].split()[1]
             atom_z = fileList[j+1].split()[2]
             charge = fileList[j].split()[3]
             print atom_type, atom_x, atom_y, atom_z, charge

格子ベクトルを抽出して変換できるので、問題ありません。ただし、2番目のforループになると、1回しか実行されず、範囲終了ステートメントと考えられます

frame_length+1

は正しくありませんが、次のように変更すると

 i+3+frame_length+1

次のエラーが表示されます。

charge = fileList[j].split()[3]
IndexError: list index out of range

これは、配列の終わりを超えていることを意味すると思います。

非常に単純なものを見落としていると確信していますが、どんな助けでも大歓迎です。

私が理解しているように、readlinesはファイル全体をメモリに読み込み、HISTORYファイルのサイズは簡単に数GBに達する可能性があるため、ファイルを読み取るより効率的な方法があるかどうかも疑問に思っています。

score 1 · Accepted Answer

わかりました、提供されたサンプル値を使用して、かなり簡単なチェックを行うことで問題を見つけることができます。次のコードを入力すると

for i in range(3,1907,136):
    for j in range(i+3,137,2):
        print i,j

これを取得します：

これはあなたが抱えているエラーです。ループは 1 回だけ繰り返されるようです。ただし、コードを少し変更すると、問題の原因がわかります。走れば

for i in range(3,1907,136):
    print "i:", i,
    for j in range(i+3,137,2):
        print "j:", j

これを取得します：

i: 3 j: 6
j: 8
j: 10
j: 12
...
j: 134
j: 136
i: 139 i: 275 i: 411 i: 547 i: 683 i: 819 i: 955 i: 1091 i: 1227 i: 1363 i: 1499
 i: 1635 i: 1771

したがって、内側のループ (j ループ) が最初に実行され、それが完了すると、外側のループ (i ループ) が内側のループを実行させずに最後まで実行されることがわかります。これはrange、内側のループに設定した方法が原因です。最初の実行では評価されrange(3,137,2)ますが、2 回目の実行では139 から始まるrange(142,137,2)ため、2 回目の実行ではになります。i開始前にすでに終了しています。

あなたが望むもの（または私があなたが望むものだと思うもの）を得るには、これが内側のループです：

for j in range(4,frame_length,line_per_atom):
    atom_type = fileList[j+i].split()[0]

これによりj、4行目以降の各フレームの行の反復子が作成されます

しかし、私が理解していないことは、あなたのコードがどのように機能したかということです。 チェックとして、あなたの例の値を手で計算しました。

frame_length = (1906 - 2) / 136 = 14
lines_per_atom = 14 / 5 = 2.8

2.8の Alines_per_atomは違法です。整数でなければなりませんTypeError。lines_per_atom の計算はlines_per_atom = (frame_length - 4) / number_of_atoms

とにかく、これがうまくいくことを願っています！

(また、将来的には変数名にアンダースコアの代わりにキャメルケースを使用してみてください。そうすれば、私の意見では入力がはるかに簡単にlines_per_atomなります)linesPerAtom

python - Python でのテキスト ファイルの繰り返しセクションの for ループ

1 に答える 1

Related

Reference

python - Python でのテキストファイルの繰り返しセクションの for ループ