次の形式の CSV ファイルがいくつかあります。
Year,Day,Hour,Min,Sec.,P1'S1
2003, 1, 0, 0,12.22, 0.541
2003, 1, 1, 0,20.69, 0.708
2003, 1, 2, 0, 4.95, 0.520
2003, 1, 3, 0,13.42, 0.539
...
(ここで、dayは年間通算日です) pandasライブラリを使用してそれらを読み取ろうとしています (これまでのところ素晴らしいライブラリのようです)。
パンダには CSV を読み取る組み込み関数があり、さらに良いことに、その関数は列の日付型をチェックすると思われます。それを自動的にインデックスとして使用します(これは私がやっていることにぴったりです)。
問題は、この形式の日付データを扱うことができないということです。
私は試した:
data = pd.read_csv("csvFile.csv", index_col=[0, 1], , index_col=[0, 1, 2, 3, 4] parse_dates=True)
しかし、それは年を正しく取得するだけです:
In [36]: data.index
Out[36]:
MultiIndex
[(<Timestamp: 2003-09-04 00:00:00>, 1, 0, 0, 12.22)
(<Timestamp: 2003-09-04 00:00:00>, 1, 1, 0, 20.69)
(<Timestamp: 2003-09-04 00:00:00>, 1, 2, 0, 4.95) ...,
(<Timestamp: 2003-09-04 00:00:00>, 365, 21, 0, 3.77)
(<Timestamp: 2003-09-04 00:00:00>, 365, 22, 0, 14.6)
(<Timestamp: 2003-09-04 00:00:00>, 365, 23, 0, 13.36)]
ドキュメントから、pandas の read_csv 関数で「date_parser」属性を指定できることがわかります。しかし、ドキュメントにはその方法が示されておらず、私はそれを理解することができません。手を差し伸べることができる主題の経験を持つ人。
乾杯、 ブルーノ