問題タブ [pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonのローリング中央値
毎日の終値に基づく株式データがあります。これらの値を Python リストに挿入し、最後の 30 回のクローズの中央値を取得できるようにする必要があります。これを行うpythonライブラリはありますか?
python - Python で複合リターン シリーズを計算する
こんにちは。2 つの一連のデータがあります。毎日の生の株価リターン (正または負のフロート) とトレード シグナル (買い = 1、売り = -1、トレードなし = 0) です。
生の価格のリターンは、今日の価格を昨日の価格で割った単純な対数です。
例:
トレードシグナルシリーズは次のようになります。
トレードシグナルに基づいて毎日のリターンを取得するには:
これらの毎日のリターンは次のようになります。
複合リターン シリーズを計算するには、daily_returns シリーズを使用する必要があります。ただし、daily_returns シリーズの値が 0 であることを考えると、最後のゼロ以外の複利リターンを「時間をかけて」次のゼロ以外の複利リターンに持ち越す必要があります。
たとえば、次のように複利のリターンを計算します (時間の経過とともに「逆行」していることに注意してください)。
そして結果のリスト:
私の目標は、これらの複利リターンを累積するために最後のゼロ以外のリターンを引き継ぐことです。つまり、インデックス i でのリターンはインデックス i+1 でのリターンに依存するため、インデックス i+1 でのリターンは非ゼロでなければなりません。リスト内包表記は、daily_return シリーズでゼロに遭遇するたびに、本質的に再起動します。
python - パンダのDataMatrixを昇順で並べ替えます
pandas DataFrameオブジェクトにはsortメソッドがありますが、pandasDataMatrixオブジェクトにはありません。
このDataMatrixオブジェクトをインデックス(日付列)で昇順で並べ替える最良の方法は何ですか?
結果は、最初のエントリとして2011年2月8日、最後のエントリとして2011年2月16日のDataMatrixになります。Compound_ret列のエントリは、ソートの日付の後に続く必要があります。したがって、結果は次のようになります。
python - パンダを使用して2つの時系列間の相関を取得する方法
私は2セットの温度日付を持っており、それらは定期的な(しかし異なる)時間間隔で測定値を持っています。これら2つのデータセット間の相関関係を取得しようとしています。
私はこれをやろうとパンダと遊んでいます。2つの時系列を作成し、を使用してTimeSeriesA.corr(TimeSeriesB)
います。ただし、2つの時系列の時間が正確に一致しない場合(通常は秒単位でずれています)、答えとしてNullが返されます。できれば、まともな答えを得ることができます。
a)各時系列の欠落時間を補間/埋めます(これはパンダで可能であることを私は知っています、私はそれを行う方法がわかりません)
b)Python datetimeオブジェクトから秒を削除します(分を変更せずに秒を00に設定します)。ある程度の精度は失われますが、それほど多くはありません
c)Pandasで他の何かを使用して、2つの時系列間の相関関係を取得します
d)Pythonで何かを使用して、floatの2つのリスト間の相関関係を取得します。各floatには、時間を考慮して、対応する日時オブジェクトがあります。
誰か提案がありますか?
python - matplotlib の多くのサブプロットでサブプロットのサイズ/間隔を改善する
この質問と非常に似ていますが、私の図は必要なだけ大きくできるという違いがあります。
matplotlib で垂直に積み上げられたプロットを大量に生成する必要があります。結果は figsave を使用して保存され、Web ページで表示されるため、サブプロットが重ならないように間隔が空けられている限り、最終的な画像の高さは気にしません。
図をどれだけ大きくしても、サブプロットは常に重なっているように見えます。
私のコードは現在次のようになっています
python - パンダを使用して、効率的な方法でグループごとに大きなDataFrameをサブサンプリングするにはどうすればよいですか?
グループ化に従ってDataFrameの行をサブサンプリングしようとしています。これが例です。次のデータを定義するとします。
とでグループ化するgroup1
とgroup2
、各グループの行数は次のようになります。
(それを計算するさらに簡潔な方法がある場合は、教えてください。)
次に、各グループからランダムに選択された1つの行を持つDataFrameを作成します。私の提案はそのようにすることです:
動作します。ただし、実際のデータには約250万行と12列があります。独自のデータ構造を構築してこれを汚い方法で行うと、この操作を数秒で完了できます。ただし、上記の実装は30分以内に完了しません(メモリが制限されているようには見えません)。ちなみに、これをRで実装しようとしたとき、最初に試しplyr
ましたが、これも妥当な時間で終了しませんでした。ただし、を使用したソリューションdata.table
は非常に迅速に終了しました。
これを迅速に機能させるにはどうすればよいpandas
ですか?このパッケージが大好きなので、助けてください!
django - パンダ + Django + mod_wsgi + virtualenv
パンダは、仮想環境の下および内部にインポートされたときに、「モジュール」オブジェクトに属性「コア」がありません。仮想環境内の開発サーバーの下で正常に動作します。django
mod_wsgi
django
他のモジュール 例: numpy には問題がないので、これは仮想環境が で正しくセットアップされていることを意味すると思いますmod_wsgi
。アドバイスをいただければ幸いです。
staging.wsgi
エラー
Python パス
python - パンダで2つのデータフレームを追加します
2つのデータフレームを行ごとにマージしようとすると、次のようになります。
次のエラーが発生します。
最初のデータフレームのインデックスは0から38で始まり、2番目のデータフレームは0から48で始まります。マージする前にデータフレームの1つのインデックスを変更する必要があることを理解していませんでしたが、方法がわかりません。 。
ありがとうございました。
これらは2つのデータフレームです。
data1
:
data2
:
最初の列はインデックスです
python - pandas データフレームから文字列 (カテゴリ) の配列を int の配列に変換します
前の質問と非常によく似たことをしようとしていますが、エラーが発生します。features,label を含む pandas データフレームがあります。機能とラベル変数を機械学習オブジェクトに送信するには、何らかの変換を行う必要があります。
で、〜がある:
出力コンソールは最初に生成されます:
次に、次のエラーが発生します。
データフレーム内のカテゴリ変数 'type' を int 型に変換することはできますか? 「type」は「single」、「touching」、「nuclei」、「dusts」の値を取ることができ、0、1、2、3 などの int 値で変換する必要があります。
python - パンダでデータフレームをループする最も効率的な方法は何ですか?
データフレーム内の財務データに対して独自の複雑な操作を順次実行したいと考えています。
たとえば、Yahoo Financeから取得した次の MSFT CSV ファイルを使用しています。
次に、次のことを行います。
それが最も効率的な方法ですか?パンダの速度に重点を置いていることを考えると、インデックスも取得する方法で値を反復処理する特別な関数が必要であると思います (おそらく、メモリ効率を高めるためにジェネレーターを介して)。df.iteritems
残念ながら、列ごとに反復するだけです。