問題タブ [pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
panel - 株式ポートフォリオの Pandas パネル
2 つの新しい短軸列 (ポートフォリオ保有とベンチマーク保有) を追加したい投資価格データのパンダ パネルがあります。
最初のパネルは次のとおりです。
概念的には次のようになります。
これらの列のみを持つ一致するパネルを作成してから、どうにかして 2 つをマージすることは可能ですか?
これを達成するための可能な代替方法について考えていますか?
Panel データ構造に関するドキュメントはかなりむき出しです。
編集:
2 番目のパネルを作成して p1.join(p2) を試しましたが、列の重複エラーが発生します。
追加したい2番目のパネルは次のとおりです。
python - Python: パンダのインストール エラー
EPD 7.1
私はforのアカデミック ディストリビューションを持っています。MacOS 10.6.x
これには pandas0.3
バージョンがあります。最新の公式バージョンな0.5.0
ので、最新にアップグレードします。
これが私がしたことです:
- ここ
zip
からソースのファイルを保存しました - 実行された
sudo python setup.py install
- 実行してテストを実行しました
nosetests pandas
私はPythonの初心者であることを覚えておいてください。インストールが失敗した理由についての洞察をいただければ幸いです。以下はエラーの抜粋です。ログ全体は、エラー ログにあります。
結果:
55.011 秒で 1498 のテストを実行しました 失敗しました (スキップ = 4、エラー = 91、失敗 = 14)
@wesm - 素早い返信ありがとうございます。次回は必ずメーリングリストを利用します。だから私は実際にバックトラック...公式の0.5.0リリースをインストールし、ソースからコンパイルしました。3 つのエラーを受け取りました (以下を参照)。実行に問題はありませんでしたsudo python setup.py install
python - Pandas DataFrame への Python map() 関数の出力
Python の map() 関数を利用して、パラメータをトレーディング モデルに渡し、結果を出力します。itertools.product を使用して、2 つのパラメーターの可能な組み合わせをすべて見つけ、その組み合わせを「run」という名前の関数に渡します。関数 run は、リターンの pandas データフレームを返します。列ヘッダーは、2 つのパラメーターのタプルとリターンのシャープ率です。下記参照:
私の main() 関数は Pool() 機能を使用して、8 つのコアすべてで map() を実行します。
map 関数はリストしか出力できないことに気付きました。出力は、返されたデータフレームからのヘッダーのリストです。print test1 からの私の出力は次のようになります。
私の最終的な目標は、インデックス(すべてのリターンで同じ)、(ENTRYMULT、PXITR1PERIOD、SHARPE)の列ヘッダーと、対応する以下のリターンを持つパンダデータフレームを持つことです。次に、すべてのリターン シリーズでペアワイズ相関計算を行います。
python - pandas にスライスを適用する方法 文字列のシリーズ
私はパンダで遊んでいて、一連の文字列オブジェクトに文字列スライスを適用しようとしています。文字列をスライスする代わりに、シリーズをスライスします。
一方で:
代わりに map 関数を使用して動作させましたが、動作するはずの方法について何かが欠けていると思います。
説明をいただければ幸いです。
python - レコードからパンダを使用していくつかのcsvファイルにインデックスを付けますか?
"file1", "file2", ..."
2つの列があるがヘッダーラベルがないcsvファイル()のリストがあります。それらにヘッダーラベルを割り当てDataFrame
、ファイルによってインデックスが付けられ、次にそれらの列ラベルによってインデックスが付けられるようにします。たとえば、私は試しました:
これにより、によってインデックス付けされたDataFrame、testが生成されますが、それぞれによってインデックス付けされ、同様"myfile1", "myfile2"...
にインデックス付けされるようにしたいと思います。私の質問は次のとおりです。"col1"
"col2"
最初のインデックスがファイルで、2番目のインデックスが(変数内で
labels
)割り当てた列になるようにするにはどうすればよいですか?私が書くことができるように:test["myfile1"]["col1"]
今のところ、test["myfile1"]
私に一連の記録を与えるだけです。
また、最初のインデックスが各ファイルの列ラベルになり、2番目のインデックスがファイル名になるように、インデックスを再作成するにはどうすればよいですか?私が書くことができるように:
test["col1"]["myfile1"]
または、などに表示されprint test["col1"]
ているの値を確認します。"col1"
myfile1, myfile2
python - Pythonパンダで複数の列を選択しますか?
csvファイルdf
を使用して構築されたパンダのデータフレームがあります。pandas.read_table
データフレームには複数の列があり、列の1つによってインデックスが作成されます(各行には、インデックス作成に使用されるその列の一意の値があるという点で一意です)。
複数の列に適用される「複雑な」フィルターに基づいてデータフレームの行を選択するにはどうすればよいですか?colA
たとえば、列が10より大きいデータフレームのスライスを簡単に選択できます。
しかし、次のようなフィルターが必要な場合はどうなりますか:列のいずれかdf
が10より大きいスライスを選択しますか?
または、の値colA
が10より大きいが、の値がcolB
5未満の場合はどうでしょうか。
これらはパンダでどのように実装されていますか?ありがとう。
python - Pandas を使用した一意でない列によってインデックス付けされた DataFrame から Panel
次のコードは私が望むことを行うはずですが、ループで20%完了するまでに10GBのRAMが必要です。
python - 2012 年の R での data.table のマージよりも、python での pandas のマージの方が速いのはなぜですか?
私は最近、python 用のpandasライブラリに出会いました。これは、このベンチマークによると、非常に高速なインメモリ マージを実行します。R (分析用に選択した言語)のdata.tableパッケージよりもさらに高速です。
pandas
よりもはるかに速いのはなぜdata.table
ですか? それは、Python が R よりも優れている固有の速度の利点によるものですか、それとも私が気付いていないトレードオフがありますか? anddata.table
に頼らずに内部結合と外部結合を実行する方法はありますか?merge(X, Y, all=FALSE)
merge(X, Y, all=TRUE)
さまざまなパッケージのベンチマークに使用されたR コードとPython コードを次に示します。
python - Pandas DataFrame シリアライゼーション
pandas データフレームのエントリを文字列バッファに書き込むのに問題があります。
stringbuffer を read_csv 関数に渡すことで、データフレームを初期化することができます。
DataFrame.to_csv
この関数は文字列のファイル パスしか受け付けないため、反対のことを行うのは簡単ではありません。
この動作に正当な理由はありますか? 最初にコンテンツをディスクに保存せずに pandas DataFrame をシリアル化する最良の方法は何ですか?