“hdfstore”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1123 参照

pandas - csv を hdfstore に読み込むパンダがスラッシュし、巨大なファイルが作成される

テストとして、pandas.HDFStore を使用して小さな 25 mg の csv ファイルを読み取ろうとしています。

これにより、コンピューターがスラッシングし、最終的に完了すると、file.h5 は 6.7 ギガバイトになります。何がファイルサイズを膨らませているのかわかりません。後でストアを見ると、そこにあるのは小さなデータフレームだけです。チャンクせずに csv を読み込んでストアに追加しても、問題はありません。

更新 1: Python 2.7.6、HDF5 バージョン 1.8.9、numpy 1.8.0、pytables 3.1.0、pandas 13.1、ubuntu 12.04 を使用して、Anaconda を実行しています。データは独自のものであるため、チャンク情報をオンラインで投稿することはできません。私はいくつかの混合型を持っています。すべてをオブジェクトとして読み込もうとすると、それでもクラッシュします。

更新 2: 混合型のすべての列を削除しましたが、まだ同じ問題が発生しています。違いがあれば、非常に大きなテキスト列がいくつかあります。

更新 3: 問題は、データフレームを hdfstore にロードしているようです。ファイルのサイズを大幅に縮小しましたが、非常に幅の広い列 (1259 文字) の 1 つを保持しました。csv ファイルのサイズが 878.6kb であるのに対し、hdfstore のサイズは 53 MB です。pytables は非常に幅の広い列を処理できませんか? それを超えると切り捨てる必要があるしきい値はありますか?

2014-03-20T18:10:47.930

0 投票する

1 に答える

3904 参照

python - pandas.HDFStore を使用して HDF5 ファイル内のグループ全体を読み取ります

私はそのようなHDFファイルを持っています:

そこから、実験の 1 つ (exp0Z) からすべてのユーザー (userXY) を取得し、それらを単一の大きな DataFrame に追加します。store.get('exp03')次のエラーを取得しようとしました:

を呼び出すことで単一のユーザーを取得できるstore.get('exp03/user01')ので、取得したデータフレームを繰り返して手動で追加することは可能だと思いますが、の単一の呼び出しまたは他の同様のメソッドstore.keys()でそれを行うことが可能かどうか疑問に思います。store.get()

編集: データセットは私の pandas.HDFstore を含むクラスであることに注意してください

python pandas hdfstore

2014-04-06T17:43:21.387

0 投票する

1 に答える

794 参照

python - Python pandasでnxsファイルを開くにはどうすればよいですか?

測定値からの直接データを含む Nexus ファイル (foo.nxs) があり、パンダで開きたいと考えています。ただし、典型的なものを試してみると

空の Store を返すだけです:

または TypeError:

ドキュメントページのすべての例は、hdf ファイルを作成し、そこにデータを保存してから取得することから始まりますが、これは同じ pandas から行われます。以前に pandas で生成されていない hdf ファイルを読み取ることができるかどうかを知りたいです。

@Jeff のリクエストによる、ptdump からの出力の一部を次に示します。

python pandas hdf5 hdfstore

2014-05-09T15:12:28.567

0 投票する

1 に答える

676 参照

python - HDFStore ファイルに保存されているパネルにデータを追加する方法

ファイルに保存されているパネルがあり、そのパネルにさらにデータを追加したいのですが、メモリに追加すると正常に機能しますが、ファイルにデータを追加しようとすると、次のエラーが発生します。

python pandas append panel hdfstore

2014-05-12T09:01:26.103

0 投票する

1 に答える

2218 参照

python - Pandas データフレームへの動的追加

Pandas で遊んで、分析のために HTTP ログを Pandas に取得しました。これは、大量のデータの優れたソースであり、Pandas を学ぶことができるからです。

一度に 1 行でストリーミングされるログを取得するため、CSV からインポートできず、これらを Pandas DataFrame に「ポンプ」する必要があります。これを HDFStore ファイルに保持します。

現時点で私が書いたコードは、プロセスを開始できるように GZIP から読み取りますが、Panda のビットが完成したら、pubsub スタイルのコルーチンでイベント駆動型になるように変更します。

これまでの私のコードは次のとおりです。

以下は、上記のコードを実行するための基本的なテストコードです。

今、私が行き詰まったように見える場所に：

pandas.Series データを作成できますが、それをデータフレームにプッシュしようとすると、11 行の 2 列として取り込まれます。

これは私が望んでいたものとはかけ離れています.[1行×1列]を望んでいました:

別の pandas.Series ログ行を追加すると、別の行が取得されます。また、タイムスタンプ、client_ip、backend_ip のインデックスも作成する予定です。

行/列を正しく取得していないように見えるので、これについていくつかの支援をいただければ幸いです。

少し遊んだ後、次のようになりました。これで少し遊んだ後、次のようになりましたが、まだ連結/追加できません。

これは私が望むものですが、この後の追加/連結にはまだ問題があるようです。

から解決策を調べます。

python numpy pandas hdfstore

2014-05-19T19:34:30.080

0 投票する

1 に答える

69 参照

python - Correct way to deal with a list of associated data items associated with several index values with pandas/pytables

I was wondering what the correct way to deal with storing/reading through a list of items such as the following example dealing with a rockstar, where the list is known to hold a maximum number of values to hdf5:

All of these would be column names.

One way I had considered, but turned out to give an error (ValueError: cannot reindex from a duplicate axis) was to have duplicate column names. Otherwise, what I could do is have Bands 1, Bands 2 etc... but that would make retrieval and querying bothersome. Is there a better way? Any help would be very much appreciated!

python pandas hdf5 pytables hdfstore

2014-08-09T21:52:30.257

0 投票する

1 に答える

198 参照

python - HDFStore への複数のファイルまたは単一のファイル

100 個の csv ファイルをデータフレームに変換し、HDFStore に保存しています。

の長所と短所は何ですか

a - csv ファイルを 100 個の異なる HDFStore ファイルとして保存しますか?

b - すべての csv ファイルを単一の HDFStore に個別の項目として保存しますか?

パフォーマンスの問題以外に、安定性の問題があり、HDFStore ファイルが頻繁に破損するため、質問しています。したがって、私にとっては、単一の HDFStore に関連するリスクがあります。とはいえ、一店舗だけのメリットがあるのかは疑問です。

python pandas hdfstore

2014-09-01T08:54:04.987

0 投票する

1 に答える

760 参照

python - パンダを追加する際のhdfstoreエラー

次のエラーが表示されます。

なぜこれが起こるのかについてのアイデアはありますか？これはかなり大きなプロジェクトなので、提供できるコードはわかりませんが、これは最初の追加で発生します。どんな助けでも大歓迎です。

編集：：：：：：

バージョンの結果を表示:

情報結果:

頭：

python pandas pytables hdfstore

2014-09-12T19:47:48.213

問題タブ [hdfstore]

Reference