問題タブ [pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matplotlib - IPython で Pandas を使用して株価チャートをプロットする
Python/Pandas を使い始めたばかりで、次のコードをまとめて S&P 500 をプロットします。
これは、高値、安値、始値、終値、調整された終値、および出来高をすべて 1 つのグラフにプロットしているように見えます。Yahooや他のほとんどの金融サイトのように、1 つのグラフに adj 終値とそのすぐ下の出来高だけをプロットする簡単な方法はありますか? OHLC ローソク足チャートをプロットする例にも興味があります。
python - Python: Pandas、Dataframe、1 列のデータを 2D データ形式に変換
1Dデータを2D配列形式に変換したいPandasデータフレームです
から変換するにはどうすればよいですか
python - インデックス付きとインデックスなしのパンダデータフレームを初期化すると、列は異なる結果を生成します
次の方法論を使用してを構築するpandas.DataFrame
と、(私が思うに)独特の出力が得られます。
平滑化された値を見に行くと、次のようになります。
これは、次の断片化された呼び出しの集約のようであり、異なる結果が得られます。
再びDataFrame.tail()
私が得る呼び出しを使用して:
なぜこれらをDataFrame構築方法論とは異なるものにする必要があるのかについて、誰かが理論的根拠を提供できますか?
pandas - nan、float、int
私はパンダが初めてで、1
sとsで完全に構成されたテーブルを読み取ろうとすることから始めました。関数を0
使用してそれを実行しています。read_csv
すべてがうまくいき、列の型が int64 の DataFrame を取得します。値を導入すると問題が発生しNaN
ます。その場合、列の型が の DataFrame を取得しますfloat64
。これは予想される動作ですか?値は型NaN
と互換性がありませint
んか?
また、フロート列を使用して DataFrame をキャストしようとしましたDataFrame(data, dtype=numpy.int64)
が、この場合は次のようになります。
python - Python Pandas ピボット テーブル
Pandas を使用して頻度カウントのピボット テーブルを作成しようとしています。
次のコードがあります。
これは私の出力です:
これは私の望ましい出力です:
これは私が得続けるものです:
誰かが理由を知っていますか?出力が大きすぎますか。何も見つからないようです。
python - オープンソースの Enthought Python 代替
Enthought の python ディストリビューションを大学院生としてデータ分析に使用しましたが、とても楽しかったです。しかし、私は最近、それを使用する能力を奪う仕事に就きました。
私は、データの初期スコープとクリーニングには Python を好み、統計側には R を好みます。ただし、これを望む原動力の一部は、パンダを試すことです。そして他の部分は、私が適切なライセンス (または支払い手段) を持っていないことです。これは明らかに問題です。
それで、私が手に入れることができる、簡単にインストールできるPythonディストリビューションが他numpy
にもありますか?scipy
sci-kits
python - PandasDataFrame-目的のインデックスの値が重複しています
パンダを試すのはこれが初めてです。妥当なユースケースがあると思いますが、つまずきます。タブ区切りファイルをPandasDataframeにロードし、それをSymbolでグループ化し、TimeStamp列でインデックス付けされたx.axisでプロットしたいと思います。データのサブセットは次のとおりです。
TimeStamp列について2つのことに注意してください。
- 値が重複していて、
- 間隔は不規則です。
こんなことができると思った…
ただし、read_csvメソッドでは、「列1-Xをインデックスとして試行しましたが、重複が見つかりました」という例外が発生します。重複する値を持つインデックス列を指定できるオプションはありますか?
また、不規則なタイムスタンプ間隔を1秒の解像度に合わせることに興味があります。それでも、特定の秒に複数のイベントをプロットしたいのですが、一意のインデックスを導入して、それに価格を合わせることができますか?
python - パンダの単純なクロス集計
パンダに出くわしましたが、やりたい簡単な計算には理想的です。私は SAS のバックグラウンドを持っていて、proc freq に取って代わると考えていました。将来私がやりたいことに合わせて拡張できるようです。しかし、私は単純なタスクに頭を悩ませることができないようです(見るべきかどうか、またはなどpivot/crosstab/indexing
を持っているべきかどうかはわかりません...)。次のことを行う方法について、誰かが私にいくつかの指針を教えてくれますか?Panel
DataFrames
2 つの CSV ファイルがあります (1 つは 2010 年用、もう 1 つは 2011 年用 - 単純なトランザクション データ) - 列はカテゴリと金額です
2010:
2011:
これらは個別の DataFrame オブジェクトにロードされます。
私がやりたいのは、カテゴリ、カテゴリの合計、およびカテゴリの頻度を取得することです。
2010:
2011:
などを使用する必要があるかどうかを判断できませんpivot/crosstab/groupby/an index
...合計または頻度のいずれかを取得できます-両方を取得できないようです...でやりたいので、もう少し複雑になります月ごとですが、誰かが親切に私に正しいテクニック/方向性を教えてくれれば、そこから行くことができると思います.
csv - 不明な列のread_csvコンバーター
すべてのセルにいくつかの値を保持するcsvファイルを読み取ろうとしていますが、それらを単一のint形式のバイトにエンコードしてパンダセルに格納します(例:(1、1)-> 771)。そのために、関数のコンバーターパラメーターを使用したいと思いread_csv
ます。問題は、事前に列の名前がわからないことです。コンバーターに渡される値は、列名をキーとして持つdictである必要があります。実際、同じコンバーター機能ですべての列を変換したいと思います。そのためには、次のように書く方がよいでしょう。
よりも:
そのようなことは可能ですか?今私がしている問題を解決するために:
しかし、このアプローチは効率が悪いかもしれないと思います。ちなみに、to_stringメソッドで使用されるフォーマッターについても同様の疑問があります。
python - パンダを使用して加重移動平均を計算するにはどうすればよいですか
パンダを使って計算できます
- を使用した単純移動平均SMA
pandas.stats.moments.rolling_mean
- を使用した指数移動平均EMA
pandas.stats.moments.ewma
しかし、ウィキペディアhttp://en.wikipedia.org/wiki/Exponential_smoothing ...で説明されているように、パンダを使用して加重移動平均(WMA)を計算するにはどうすればよいですか?
WMAを計算するパンダ関数はありますか?