私はパンダを使って財務記録を分析しています。
DataFrame
次のようなcsvファイルからのを持っています:
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 800 entries, 2010-10-27 00:00:00 to 2011-07-12 00:00:00
Data columns:
debit 800 non-null values
transaction_type 799 non-null values
transaction_date_raw 800 non-null values
credit 800 non-null values
transaction_description 800 non-null values
account_number 800 non-null values
sort_code 800 non-null values
balance 800 non-null values
dtypes: float64(3), int64(1), object(4)
取引金額に基づいてサブセットを選択しています:
c1 = df['credit'].map(lambda x: x > 1000)
milestones = df[c1].sort()
マイルストーン間の日付に基づいて、元のdfのスライスを作成します。
delta = dt.timedelta(days=1)
for i in range(len(milestones.index)-1):
start = milestones.index[i].date()
end = milestones.index[i+1].date() - delta
rng = date_range(start, end)
これにより、マイルストーン間の日付で新しいシリーズが生成されます。
<class 'pandas.tseries.index.DatetimeIndex'>
[2010-11-29 00:00:00, ..., 2010-12-30 00:00:00]
Length: 32, Freq: D, Timezone: None
これらの新しいシリーズ(rng)を使用してdfをスライスするためにいくつかのアプローチに従いましたが、失敗しました:
df.ix[start:end] or
df.ix[rng]
これにより発生します:IndexError:無効なスライス
df.reindex(rng) or df.reindex(index=rng)
発生:例外:一意に評価されたインデックスオブジェクトでのみ有効なインデックスの再作成
x = [v for v in rng if v in df.index]
df[x]
df.ix[x]
df.index[x]
これにより無効なスライスも発生し、次のようになります。
df.truncate(start, end)
私はパンダに不慣れで、Oreillyからの本の初期リリースをフォローしていて、本当に楽しんでいます。任意のポインタをいただければ幸いです。