問題タブ [hdfstore]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pandas - csv を hdfstore に読み込むパンダがスラッシュし、巨大なファイルが作成される
テストとして、pandas.HDFStore を使用して小さな 25 mg の csv ファイルを読み取ろうとしています。
これにより、コンピューターがスラッシングし、最終的に完了すると、file.h5 は 6.7 ギガバイトになります。何がファイル サイズを膨らませているのかわかりません。後でストアを見ると、そこにあるのは小さなデータフレームだけです。チャンクせずに csv を読み込んでストアに追加しても、問題はありません。
更新 1: Python 2.7.6、HDF5 バージョン 1.8.9、numpy 1.8.0、pytables 3.1.0、pandas 13.1、ubuntu 12.04 を使用して、Anaconda を実行しています。データは独自のものであるため、チャンク情報をオンラインで投稿することはできません。私はいくつかの混合型を持っています。すべてをオブジェクトとして読み込もうとすると、それでもクラッシュします。
更新 2: 混合型のすべての列を削除しましたが、まだ同じ問題が発生しています。違いがあれば、非常に大きなテキスト列がいくつかあります。
更新 3: 問題は、データフレームを hdfstore にロードしているようです。ファイルのサイズを大幅に縮小しましたが、非常に幅の広い列 (1259 文字) の 1 つを保持しました。csv ファイルのサイズが 878.6kb であるのに対し、hdfstore のサイズは 53 MB です。pytables は非常に幅の広い列を処理できませんか? それを超えると切り捨てる必要があるしきい値はありますか?
python - pandas.HDFStore を使用して HDF5 ファイル内のグループ全体を読み取ります
私はそのようなHDFファイルを持っています:
そこから、実験の 1 つ (exp0Z) からすべてのユーザー (userXY) を取得し、それらを単一の大きな DataFrame に追加します。store.get('exp03')
次のエラーを取得しようとしました:
を呼び出すことで単一のユーザーを取得できるstore.get('exp03/user01')
ので、取得したデータフレームを繰り返して手動で追加することは可能だと思いますが、 の単一の呼び出しまたは他の同様のメソッドstore.keys()
でそれを行うことが可能かどうか疑問に思います。store.get()
編集: データセットは私の pandas.HDFstore を含むクラスであることに注意してください
python - Python pandasでnxsファイルを開くにはどうすればよいですか?
測定値からの直接データを含む Nexus ファイル (foo.nxs) があり、パンダで開きたいと考えています。ただし、典型的なものを試してみると
空の Store を返すだけです:
または TypeError:
ドキュメント ページのすべての例は、hdf ファイルを作成し、そこにデータを保存してから取得することから始まりますが、これは同じ pandas から行われます。以前に pandas で生成されていない hdf ファイルを読み取ることができるかどうかを知りたいです。
@Jeff のリクエストによる、ptdump からの出力の一部を次に示します。
python - HDFStore ファイルに保存されているパネルにデータを追加する方法
ファイルに保存されているパネルがあり、そのパネルにさらにデータを追加したいのですが、メモリに追加すると正常に機能しますが、ファイルにデータを追加しようとすると、次のエラーが発生します。
python - Pandas データフレームへの動的追加
Pandas で遊んで、分析のために HTTP ログを Pandas に取得しました。これは、大量のデータの優れたソースであり、Pandas を学ぶことができるからです。
一度に 1 行でストリーミングされるログを取得するため、CSV からインポートできず、これらを Pandas DataFrame に「ポンプ」する必要があります。これを HDFStore ファイルに保持します。
現時点で私が書いたコードは、プロセスを開始できるように GZIP から読み取りますが、Panda のビットが完成したら、pubsub スタイルのコルーチンでイベント駆動型になるように変更します。
これまでの私のコードは次のとおりです。
以下は、上記のコードを実行するための基本的なテスト コードです。
今、私が行き詰まったように見える場所に:
pandas.Series データを作成できますが、それをデータフレームにプッシュしようとすると、11 行の 2 列として取り込まれます。
これは私が望んでいたものとはかけ離れています.[1行×1列]を望んでいました:
別の pandas.Series ログ行を追加すると、別の行が取得されます。また、タイムスタンプ、client_ip、backend_ip のインデックスも作成する予定です。
行/列を正しく取得していないように見えるので、これについていくつかの支援をいただければ幸いです。
少し遊んだ後、次のようになりました。これで少し遊んだ後、次のようになりましたが、まだ連結/追加できません。
これは私が望むものですが、この後の追加/連結にはまだ問題があるようです。
から解決策を調べます。
python - Correct way to deal with a list of associated data items associated with several index values with pandas/pytables
I was wondering what the correct way to deal with storing/reading through a list of items such as the following example dealing with a rockstar, where the list is known to hold a maximum number of values to hdf5:
All of these would be column names.
One way I had considered, but turned out to give an error (ValueError: cannot reindex from a duplicate axis
) was to have duplicate column names. Otherwise, what I could do is have Bands 1
, Bands 2
etc... but that would make retrieval and querying bothersome. Is there a better way? Any help would be very much appreciated!
python - HDFStore への複数のファイルまたは単一のファイル
100 個の csv ファイルをデータフレームに変換し、HDFStore に保存しています。
の長所と短所は何ですか
a - csv ファイルを 100 個の異なる HDFStore ファイルとして保存しますか?
b - すべての csv ファイルを単一の HDFStore に個別の項目として保存しますか?
パフォーマンスの問題以外に、安定性の問題があり、HDFStore ファイルが頻繁に破損するため、質問しています。したがって、私にとっては、単一の HDFStore に関連するリスクがあります。とはいえ、一店舗だけのメリットがあるのかは疑問です。
python - パンダを追加する際のhdfstoreエラー
次のエラーが表示されます。
なぜこれが起こるのかについてのアイデアはありますか?これはかなり大きなプロジェクトなので、提供できるコードはわかりませんが、これは最初の追加で発生します。どんな助けでも大歓迎です。
編集::::::
バージョンの結果を表示:
情報結果:
頭: