“h5py”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

3495 参照

python - h5pyを使用してデータを読み戻すことができません。「グループを作成できません」

クイックスタートページの簡単な例を完成させようとしています

http://www.h5py.org/docs/intro/quick.html

出力は

私はこれを正しく行おうとしていますか？

python h5py

2013-03-04T00:51:59.050

0 投票する

1 に答える

1064 参照

python - データの保存に h5py が役立つのはいつですか?

Pythonを使用してデータを保存するためにh5pyを使用しています

これらの大きな数値を格納するのは非常に便利ですが、たとえば 2 列のデータのみを格納しようとすると、通常のデータファイルに保存する方がスペース効率が良いことがわかりました。h5py形式のストレージがより効率的になる重要なデータサイズはありますか? また、この形式を使用することの明白ではない利点は他にありますか?

python h5py

2013-03-16T08:06:34.907

0 投票する

1 に答える

941 参照

python - h5py または同様の階層データベースでの高速検索

オンラインカタログ用のデータベースが必要です。可能であれば、製品ごとに 1 つのデータセット。そして単純なデータベース。それが私がh5pyを愛していることです。

グループの方法visititemsは、大きなファイルでは高速ではありません。

何も評価しない(pass)関数の場合、「database.visititems(fu01)」は5秒かかります。基本的な引数でフィルタリングすると、x2 がかかります。

私の質問は、特性による大規模または非常に大規模な h5py データベースフィルタリングを非常に高速 (10.000 製品で 0.1 秒未満) に検索するにはどうすればよいかということです。

h5py/hdf5 は正しい方法ですか、それとも sqlite3 のような sql データベースが必要ですか?

それとも、速度が必要な場合は、すべてが同じデータセットにある必要がありますか? ツリーパスを 1 つの要素として使用します。例えば：

次に、すべての製品を 1 つの「列」(高度なスライス) でフィルタリングします。

私はデータベースに不慣れで、現時点では、reddis などのメモリ内で動作するデータベースには興味がありません。データの変更を同期するのが難しいためです。しかし、他に解決策がなければ...

python database h5py

2013-04-04T21:14:08.347

0 投票する

1 に答える

1761 参照

python - バージョン管理された HDF5 ファイル (h5py) - 保存するたびにハッシュが変更されます

h5py を使用して、数値作業の中間データを HDF5 ファイルに保存しています。プロジェクトをバージョン管理していますが、HDF5 ファイルを生成するスクリプトを再実行するたびに、内部のデータが変更されなくてもバイナリファイルが変更されるため、これは HDF5 ファイルではうまく機能しません。

これを説明するための小さな例を次に示します。

HDF5 ファイル形式のドキュメントと h5py のドキュメントを調べましたが、これに役立つものは見つかりませんでした。私の質問は次のとおりです。

同じデータを保存しているのに、ファイルが変更されるのはなぜですか?
実際の数値コンテンツが変更されたときにのみバージョン管理がファイルの新しいバージョンを認識できるように、変更を停止するにはどうすればよいですか?

ありがとう

python hdf5 h5py

2013-04-15T15:59:06.140

0 投票する

2 に答える

536 参照

python - python hdf5解析関数をマルチスレッド化しても速度が上がらない

私は次の機能を持っています：

1) hdf5 データセットを整数の ASCII コードとして読み込みます

2) ASCII 整数を文字に変換します... chr() 関数

3) 文字を単一の文字列関数に結合します

プロファイリングを行ったところ、計算の大部分が手順 2 である ASCII 整数から文字への変換に費やされていることがわかりました。以下を使用して、この呼び出しを多少最適化しました。

私の解析関数は CPU バウンド (整数から文字への変換) であり、i/o バウンドではないように思われるため、解析に専念するコアの数によって多かれ少なかれ線形速度が向上することを期待していました。1 つのファイルを連続して解析するには ~15 秒かかります... 10 個のファイルを解析するには (12 コアのマシンで)、10 個のスレッドを使用しているときに ~150 秒かかります。つまり、まったく強化されていないように見えます。

次のコードを使用してスレッドを起動しました。

どんな助けでも大歓迎です。

python multithreading hdf5 h5py

2013-04-30T14:32:10.993

0 投票する

5 に答える

48683 参照

python - HDF5 データセットに辞書を保存する方法

キーが日時オブジェクトで、値が整数のタプルである辞書があります。

HDF5 データセットに保存したいのですが、辞書をダンプしようとすると、h5py でエラーが発生します。

TypeError: オブジェクト dtype dtype('object') にはネイティブ HDF5 に相当するものはありません

HDF5 データセットに格納できるように、この辞書を変換する「最良の」方法は何でしょうか?

具体的には、日時クエリに基づくデータ取得が複雑になるため、ディクショナリを numpy 配列にダンプしたくありません。

python h5py

2013-05-11T07:01:53.843

0 投票する

1 に答える

2147 参照

python - matplotlib でアニメーションを使用したカラーマップの問題

matplotlib.animationという名前の 3D 配列のデータをアニメーション化するために使用しarrます。h5pyライブラリを使用して h5 ファイルからデータを読み取りましたが、すべて問題ありません。しかし、アニメーションを使用すると、カラーマップがデータ範囲の最初のフレームでスタックし、いくつかの手順の後、プロット中に正規化されていない色が表示されます。

これが私のコードです：

python animation matplotlib color-mapping h5py

2013-05-20T19:56:35.377

問題タブ [h5py]

Reference