pandas データフレームの適切な時間インデックスを取得するのに少し問題があります。
import pandas as pd
from datetime import strptime
import numpy as np
stockdata = pd.read_csv("/home/stff/symbol_2012-02.csv", parse_dates =[[0,1,2]])
stockdata.columns = ['date_time','ticker','exch','salcond','vol','price','stopstockind','corrind','seqnum','source','trf','symroot','symsuffix']
問題は、年/月/日、時/分/秒、ミリ秒の最初の 3 つの列に時間が含まれていることだと思います。また、正午より前の場合、時/分/秒の列は最初のゼロを削除します。
print(stockdata['date_time'][0])
20120201 41206 300
print(stockdata['date_time'][50000])
20120201 151117 770
理想的には、read_csv 関数の converters 引数によって呼び出される独自の関数を定義したいと考えています。