そのような形式の .csv ファイルがあります
timestmp, p
2014/12/31 00:31:01:9200, 0.7
2014/12/31 00:31:12:1700, 1.9
...
を介して読み取り、pd.read_csv
を使用して時刻 str を datetime に変換するとpd.to_datetime
、パフォーマンスが劇的に低下します。これは最小限の例です。
import re
import pandas as pd
d = '2014-12-12 01:02:03.0030'
c = re.sub('-', '/', d)
%timeit pd.to_datetime(d)
%timeit pd.to_datetime(c)
%timeit pd.to_datetime(c, format="%Y/%m/%d %H:%M:%S.%f")
そして、パフォーマンスは次のとおりです。
10000 loops, best of 3: 62.4 µs per loop
10000 loops, best of 3: 181 µs per loop
10000 loops, best of 3: 82.9 µs per loop
pd.to_datetime
では、csv ファイルから日付を読み取るときのパフォーマンスを改善するにはどうすればよいでしょうか?