2

私はパンダが初めてで、プロからの洞察が欲しいです。金融証券の毎日の始値、高値、安値、終値の 30 を超える時系列で、さまざまな統計分析 (重回帰、相関など) を実行する必要があります。各シリーズには 500 ~ 1500 日分のデータがあります。各分析は複数の証券を対象としているため、使いやすさと効率の観点から、各時系列を個別の df に格納し、それぞれの日付をインデックスとして使用するか、それらすべてを 1 つの df にマージすることが望ましいかどうか疑問に思っています。事実上3d dfになる単一の日付インデックス。後者の場合、それを構成する方法に関する推奨事項はありますか?

どんな考えでも大歓迎です。

PS。私は複数のタイムゾーンにまたがる日中のデータを扱うように取り組んでいますが、それは私の最初の pandas プロジェクトには少し多すぎます。これはその方向への第一歩です。

4

2 に答える 2

3

OHLC のみを扱っているため、処理するデータはそれほど多くないので、それで問題ありません。

これらのタイプのものについては、通常、シンボルを最初のレベルとして、日付を 2 番目として、マルチインデックス ( http://pandas.pydata.org/pandas-docs/stable/indexing.html ) を使用します。その後、列 OHLC のみを使用でき、すべて設定されています。

multiindex にアクセスするには、.xs関数を使用します。

于 2014-03-19T13:45:25.937 に答える
1

すべてをすべてに関連付けるつもりがない限り、これを個別のデータフレームに入れ、それらすべてを辞書に入れることをお勧めします。つまり、{"Timeseries1":df1, "Timeseries2":df2...} です。次に、いくつかの時系列を相互に関連付けたい場合は、それらをマージして、異なるすべての df の列に接尾辞を付けて、それらを区別することができます。

おそらく、pandasの作者自身によるpandas による財務データ分析のための Python のこの講演に興味があるでしょう。

于 2014-03-19T13:44:26.080 に答える