と呼ばれる化学情報プログラムのテキスト出力からデータを抽出しようとしていますNWChem
。関心のある出力の部分 (振動モード) を既に抽出しています。抽出した文字列は次のとおりです。
s = ''' 1 2 3 4 5 6
P.Frequency -0.00 0.00 0.00 0.00 0.00 0.00
1 -0.23581 0.00000 0.00000 0.00000 0.01800 -0.04639
2 0.00000 0.25004 0.00000 0.00000 0.00000 0.00000
3 -0.00000 0.00000 0.00000 0.00000 -0.21968 -0.08522
4 -0.23425 0.00000 0.00000 0.00000 -0.14541 0.37483
5 0.00000 0.00000 0.99611 0.00000 0.00000 0.00000
6 0.00192 0.00000 0.00000 0.00000 -0.42262 0.43789
7 -0.23425 0.00000 0.00000 0.00000 -0.14541 0.37483
8 0.00000 0.00000 0.00000 0.99611 0.00000 0.00000
9 -0.00193 0.00000 0.00000 0.00000 -0.01674 -0.60834
7 8 9
P.Frequency 1583.30 3661.06 3772.30
1 -0.00000 -0.00000 0.06664
2 0.00000 0.00000 0.00000
3 -0.06754 0.04934 0.00000
4 0.41551 0.56874 -0.52878
5 0.00000 0.00000 0.00000
6 0.53597 -0.39157 0.42577
7 -0.41551 -0.56874 -0.52878
8 0.00000 0.00000 0.00000
9 0.53597 -0.39157 -0.42577'''
まず、正規表現を使用してデータを行に分割します。
import re
p = re.compile('\n + +(?=[\d| ]+\n\n P.Frequency +)')
d = re.split(p, s)
print(d[0])
1 2 3 4 5 6
P.Frequency -0.00 0.00 0.00 0.00 0.00 0.00
1 -0.23581 0.00000 0.00000 0.00000 0.01800 -0.04639
2 0.00000 0.25004 0.00000 0.00000 0.00000 0.00000
3 -0.00000 0.00000 0.00000 0.00000 -0.21968 -0.08522
4 -0.23425 0.00000 0.00000 0.00000 -0.14541 0.37483
5 0.00000 0.00000 0.99611 0.00000 0.00000 0.00000
6 0.00192 0.00000 0.00000 0.00000 -0.42262 0.43789
7 -0.23425 0.00000 0.00000 0.00000 -0.14541 0.37483
8 0.00000 0.00000 0.00000 0.99611 0.00000 0.00000
9 -0.00193 0.00000 0.00000 0.00000 -0.01674 -0.60834
しかし、垂直に表示される振動モードを抽出する方法がわかりません。配列の配列、またはおそらくnumpy配列の各振動モードに簡単にアクセスしたいと思います。このような:
[[-0.00, -0.23581, 0.0000, ..., -0.00193],
[0.00, 0.00000, ..., 0.00000],
...
[3772.30, 0.06664, ..., 0.0000, --0.42577]]