python - Python正規表現データファイルの解析効率を改善するには?

Question

次のようなデータファイルがあります。

group Head:
  data1:        abc         data2:            def
  2word data3:  ghi         data4:            jkl
  data3:        mno         three word data4: pqr stu

だからPythonで私はこのような正規表現を構築しました：

Data = re.findall(r'(([\w\(\)]+[ \t\f]?)+):([ \t\f]*(\S+))', data)

私のファイルは 600 行近くあり、多くの場合、上記のように 2 列あり、ファイルごとに解析に数分かかります。

ファイルごとに 10 秒未満で実行できるように、このコードをより効率的にするにはどうすればよいでしょうか?

score 2 · Accepted Answer

繰り返し演算子をネストしており、指数バックトラッキングが発生している可能性があります。

代わりにこれを試してください：

r'(\S.+)\s*:\s*(\S+)'

非空白の後に何か他のものが続き、オプションの空白が前後にあるコロン、さらにいくつかの非空白が続きます。

score 0 · Accepted Answer

正規表現をプリコンパイルします。ドキュメント。

可能であれば、ファイルを分割し、行ごとに解析してください。

どちらも時間を短縮するのに役立ちます。

python - Python正規表現データファイルの解析効率を改善するには?

4 に答える 4

Related

Reference