問題タブ [pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - データアライメント後にCSVにエクスポートできません
2つのデータセットがあり、両方のセットに共通の日付があるデータのみを保持したいと思います。でデータセットをインポートし、それらをread_csv()
呼び出します。df1
df2
次に、以下を実行します。
確認したところ、DFはタプルのようです。目標は、を使用して(共通の日付のみで)整列されたデータをエクスポートすることDF.to_csv(path)
です。'tuple'オブジェクトに属性'to_csv'がないというメッセージで失敗します。結合によってタプルが作成された理由がわかりません。これは、CSVにエクスポートできるデータフレームであるべきではありませんか?
.csvファイルに簡単にエクスポートできるように使用するためのより良いコマンドはありますか?
python - 間隔の日時値を任意の頻度の時系列に変換します
私は次のデータ構造を持っています:
これは、開始日、終了日、および値(日付の間に記録されたいくつかのメトリック)の間隔です。
さらにデータを分析するには、必要な頻度で時系列を生成する必要があります。 月次/日次/時間ごと/30分ごとの時系列です。たとえば、1時間ごとのデータ:
この種のデータ変換を実装するのに役立つPythonライブラリはありますか?
python - 複数のファイルからパンダデータフレームを作成する
パンダを作成しようとしていますDataFrame
が、単一のファイルに対しては正常に機能します。同じデータ構造を持つ複数のファイル用にビルドする必要がある場合。したがって、単一のファイル名の代わりに、作成したいファイル名のリストがありますDataFrame
。
pandas で current に追加する方法がわからない、DataFrame
または pandas がファイルのリストをDataFrame
.
python - pandas, python - 時系列で特定の時間を選択する方法
私は今、一連の時間別データを分析するために python と pandas を使用してかなり長い間作業しており、非常に優れていることがわかりました (Matlab から来ています)。
今、私はちょっと立ち往生しています。私はDataFrame
そのように作成しました:
ここでやりたいことは、すべての日の 10 時から 13 時と 20 時から 23 時までのデータを選択して、そのデータをさらに計算に使用することです。これまでのところ、次を使用してデータをスライスしました
そして、必要なデータを選択するために、ある種のダーティループが発生することは間違いありません。しかし、私が望むものを正確にインデックス化するためのよりエレガントな方法が必要です。これは一般的な問題であり、疑似コードでの解決策は次のようになるはずです。
私はエンジニアであり、プログラマーではありません:) ...まだ
pandas - このread_fwf()エラーがあるのはなぜですか?
固定幅のファイルを読み込もうとすると、
問題は、値が重複していても、データを組み込みたいということです。どうすればこれを回避できますか?
python - Pandas csv リーダーでデータ型を指定する
私はパンダを使い始めたばかりで、read_csv()
メソッドを使用して csv ファイルを読み込んでいます。私が抱えている問題は、パンダが電話番号を文字列として保持するのではなく、大きな数字に変換するのを防ぐことです。数値をそのままにしておくコンバーターを定義しましたが、それでも数値に変換されます。電話番号の先頭に「z」を追加するようにコンバーターを変更すると、文字列のままになりました。フィールドの値を変更せずに文字列を保持する方法はありますか?
python-2.7 - Python Pandas: Aggregate が 0.7.1 から 0.7.3 に変更されました
何らかの理由で、私が書いて 0.7.1 で作業したスクリプトが 0.7.3 では動作しませんでした
0.7.1 に戻すと、すべて正常に動作しました。問題は集計方法にあるようです。agg
さまざまな列(np.mean
、np.sum
...など)にさまざまな集計方法の辞書を使用しています。0.7.3 で実行すると、これは
エラー。
これについて何か考えはありますか?バージョン 0.7.3 ですべてが機能するようにしたいのですが、構文が変更されたのでしょうか?
pandas - read_fwf()がファイルの正しい内容を出力しないのはなぜですか?
これはファイルの内容です(sample.txtという名前)
それを読むために入力したコード:
この出力がファイルとはまったく異なるものとして理解するのに苦労しています。コメントやアドバイスがあれば役に立ちます。ありがとう
python - パンダ:ピボットテーブルを並べ替える
初めてパンダを試してみました。最初にピボットテーブルをインデックスで並べ替え、次に一連の値で並べ替えようとしています。
これまで私が試した:
ピボットテーブルをインデックス、次に値で並べ替える正しい方法は何ですか?
python - パンダ:ここでメモリリークはどこにありますか?
Pythonpandas
のライブラリを使用したメモリリークの問題に直面しています。クラスにオブジェクトを作成し、条件に応じてデータフレームサイズを変更するメソッドがあります。データフレームのサイズを変更して新しいパンダオブジェクトを作成した後、クラスの元のpandas.dataframeを書き直します。ただし、初期テーブルを大幅に削減した後でも、メモリ使用量は非常に高くなります。短い例のコード(私はプロセスマネージャーを作成しませんでした。タスクマネージャーを参照してください):pandas.dataframe
データフレームを作成する前に、私は約を持っています。15MBのメモリ使用量
作成後-67mb
サイズ変更後-67mb
元のデータフレームを削除した後-35mb
縮小されたテーブルを削除した後-31mb。
16 mb?
私はWindows7(x64)マシンのパンダでpython 2.7.2(x32)を使用しています。バージョンは0.7.3です。しびれ。バージョンは1.6.1です