非常に大きな (170 万レコード) csv ファイルを numpy レコード配列に読み込む必要があります。2 つの列は、datetime オブジェクトに変換する必要がある文字列です。さらに、1 つの列は、これらの日時間の計算された差である必要があります。
現時点では、リストのリストを作成するカスタム イテレータ クラスを作成しました。次に、np.rec.fromrecords を使用して配列に変換します。
しかし、datetime.strptime() を何度も呼び出すと、実際に速度が低下することに気付きました。これらの変換を行うためのより効率的な方法があるかどうか疑問に思っていました。時刻は、日付の範囲内で秒単位まで正確です。したがって、時間が均一に分布していると仮定すると (そうではありません)、必要な変換の 20 倍 (170 万 / (60 X 60 X 24)) を行っているように見えます。
不要な変換を行う前に、変換された値を辞書 {string dates: datetime obj} に保存し、最初に辞書をチェックする方が高速でしょうか?
または、numpy 関数を使用する必要がありますか (numpy ライブラリにはまだ慣れていません)。