問題タブ [hdfstore]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1123 参照

pandas - csv を hdfstore に読み込むパンダがスラッシュし、巨大なファイルが作成される

テストとして、pandas.HDFStore を使用して小さな 25 mg の csv ファイルを読み取ろうとしています。

これにより、コンピューターがスラッシングし、最終的に完了すると、file.h5 は 6.7 ギガバイトになります。何がファイル サイズを膨らませているのかわかりません。後でストアを見ると、そこにあるのは小さなデータフレームだけです。チャンクせずに csv を読み込んでストアに追加しても、問題はありません。

更新 1: Python 2.7.6、HDF5 バージョン 1.8.9、numpy 1.8.0、pytables 3.1.0、pandas 13.1、ubuntu 12.04 を使用して、Anaconda を実行しています。データは独自のものであるため、チャンク情報をオンラインで投稿することはできません。私はいくつかの混合型を持っています。すべてをオブジェクトとして読み込もうとすると、それでもクラッシュします。

更新 2: 混合型のすべての列を削除しましたが、まだ同じ問題が発生しています。違いがあれば、非常に大きなテキスト列がいくつかあります。

更新 3: 問題は、データフレームを hdfstore にロードしているようです。ファイルのサイズを大幅に縮小しましたが、非常に幅の広い列 (1259 文字) の 1 つを保持しました。csv ファイルのサイズが 878.6kb であるのに対し、hdfstore のサイズは 53 MB です。pytables は非常に幅の広い列を処理できませんか? それを超えると切り捨てる必要があるしきい値はありますか?

0 投票する
1 に答える
3904 参照

python - pandas.HDFStore を使用して HDF5 ファイル内のグループ全体を読み取ります

私はそのようなHDFファイルを持っています:

そこから、実験の 1 つ (exp0Z) からすべてのユーザー (userXY) を取得し、それらを単一の大きな DataFrame に追加します。store.get('exp03')次のエラーを取得しようとしました:

を呼び出すことで単一のユーザーを取得できるstore.get('exp03/user01')ので、取得したデータフレームを繰り返して手動で追加することは可能だと思いますが、 の単一の呼び出しまたは他の同様のメソッドstore.keys()でそれを行うことが可能かどうか疑問に思います。store.get()

編集: データセットは私の pandas.HDFstore を含むクラスであることに注意してください

0 投票する
1 に答える
794 参照

python - Python pandasでnxsファイルを開くにはどうすればよいですか?

測定値からの直接データを含む Nexus ファイル (foo.nxs) があり、パンダで開きたいと考えています。ただし、典型的なものを試してみると

空の Store を返すだけです:

または TypeError:

ドキュメント ページのすべての例は、hdf ファイルを作成し、そこにデータを保存してから取得することから始まりますが、これは同じ pandas から行われます。以前に pandas で生成されていない hdf ファイルを読み取ることができるかどうかを知りたいです。

@Jeff のリクエストによる、ptdump からの出力の一部を次に示します。

0 投票する
1 に答える
676 参照

python - HDFStore ファイルに保存されているパネルにデータを追加する方法

ファイルに保存されているパネルがあり、そのパネルにさらにデータを追加したいのですが、メモリに追加すると正常に機能しますが、ファイルにデータを追加しようとすると、次のエラーが発生します。

0 投票する
1 に答える
2218 参照

python - Pandas データフレームへの動的追加

Pandas で遊んで、分析のために HTTP ログを Pandas に取得しました。これは、大量のデータの優れたソースであり、Pandas を学ぶことができるからです。

一度に 1 行でストリーミングされるログを取得するため、CSV からインポートできず、これらを Pandas DataFrame に「ポンプ」する必要があります。これを HDFStore ファイルに保持します。

現時点で私が書いたコードは、プロセスを開始できるように GZIP から読み取りますが、Panda のビットが完成したら、pubsub スタイルのコルーチンでイベント駆動型になるように変更します。

これまでの私のコードは次のとおりです。

以下は、上記のコードを実行するための基本的なテスト コードです。

今、私が行き詰まったように見える場所に:

pandas.Series データを作成できますが、それをデータフレームにプッシュしようとすると、11 行の 2 列として取り込まれます。

これは私が望んでいたものとはかけ離れています.[1行×1列]を望んでいました:

別の pandas.Series ログ行を追加すると、別の行が取得されます。また、タイムスタンプ、client_ip、backend_ip のインデックスも作成する予定です。

行/列を正しく取得していないように見えるので、これについていくつかの支援をいただければ幸いです。

少し遊んだ後、次のようになりました。これで少し遊んだ後、次のようになりましたが、まだ連結/追加できません。

これは私が望むものですが、この後の追加/連結にはまだ問題があるようです。

から解決策を調べます。

0 投票する
1 に答える
69 参照

python - Correct way to deal with a list of associated data items associated with several index values with pandas/pytables

I was wondering what the correct way to deal with storing/reading through a list of items such as the following example dealing with a rockstar, where the list is known to hold a maximum number of values to hdf5:

All of these would be column names.

One way I had considered, but turned out to give an error (ValueError: cannot reindex from a duplicate axis) was to have duplicate column names. Otherwise, what I could do is have Bands 1, Bands 2 etc... but that would make retrieval and querying bothersome. Is there a better way? Any help would be very much appreciated!

0 投票する
1 に答える
198 参照

python - HDFStore への複数のファイルまたは単一のファイル

100 個の csv ファイルをデータフレームに変換し、HDFStore に保存しています。

の長所と短所は何ですか

a - csv ファイルを 100 個の異なる HDFStore ファイルとして保存しますか?

b - すべての csv ファイルを単一の HDFStore に個別の項目として保存しますか?

パフォーマンスの問題以外に、安定性の問題があり、HDFStore ファイルが頻繁に破損するため、質問しています。したがって、私にとっては、単一の HDFStore に関連するリスクがあります。とはいえ、一店舗だけのメリットがあるのか​​は疑問です。

0 投票する
1 に答える
760 参照

python - パンダを追加する際のhdfstoreエラー

次のエラーが表示されます。

なぜこれが起こるのかについてのアイデアはありますか?これはかなり大きなプロジェクトなので、提供できるコードはわかりませんが、これは最初の追加で発生します。どんな助けでも大歓迎です。

編集::::::

バージョンの結果を表示:

情報結果:

頭: