問題タブ [hdfstore]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - odo で pandas hdfstore を変換するときにデータ列を維持する
この質問の提案に従って、blaze プロジェクトの odo を使用して複数の pandas hdfstore テーブルをマージしています: Concatenate two big pandas.HDFStore HDF5 files
ストアには、設計により同一の列と重複しないインデックスがあり、数百万行あります。個々のファイルはメモリに収まる可能性がありますが、結合されたファイル全体はメモリに収まらない可能性があります。
hdfstore が作成された設定を保存する方法はありますか? データ列と圧縮設定が失われます。
運悪くやってみodo(part, whole, datacolumns=['col1','col2'])
た。
あるいは、代替方法の提案をいただければ幸いです。もちろんこれを手動で行うこともできますが、メモリ不足にならないようにチャンクサイズを管理する必要があります。
python - Python Pandas hdfstore の select(where='') は、修飾されていない結果を返します
次のような大きな hdfstore ファイル (>10G) をクエリすると、次のようになります。
ほとんどのエントリの node_id が 1 であるという結果が得られましたが、一部のエントリには 1 以外の node_id があります。
これは、node_id が 1 以外のエントリがいくつかあることを確認できる結果の一部です。
行 300002 が望ましくない結果であることに気付き、次のようにその特定の領域の周りのノード 1 を選択しようとします。
結果にはノード 3 のみが返されます。
次に、次のように開始/停止の代わりにインデックスを使用してみます。
今回は正しい結果が返されました。
インデックスの選択でこの問題を回避するかもしれないと思いますが、ほとんどの場合、開始/停止を伴うメソッドも正しい結果を取得するため、完全にはわかりません。失敗した場合、他の場所で失敗する可能性があります。
また、開始/停止メソッドが機能することを本当に望んでいます。これははるかに高速であり、データセットが大きいため、遅いメソッドは非常に時間がかかるためです。
ところで、ご参考までに、次のように「chunksize」を使用することはできません。
chunksize を試すたびに、このような MemoryError が発生しました。多くの問題に苦しんでいる Pandas は、私のような初心者にとっては本当に大変です。どんな助けでも大歓迎です。
python - Python panda HDFstoreは、列が欠落しているデータフレームを追加します
dtype が [uint32,int64,datetime64[ns]] の 3 つの列 [a,b,c] を持つ hdfstore が既にあるとします。
問題は、列が欠落しているデータフレームを追加する方法です。列 'c' が欠落しているとします。[a,b] のみを追加しようとしましたが、データフレームがcannot match existing table structure
列「c」を含むデータフレームのインデックスを再作成しようとしましたが、新しい列「c」はデフォルトですべて NaN であり、その dtype は float64 であり、まだ一致しないため、まだ機能しません。
したがって、 .astype(datetime64[ns])を使用して dtype を変更しようとしましたが、この方法はどちらでも機能せず、dtype は変更されません。
この部分的な列データフレームを HDFstore に追加するにはどうすればよいですか?
pandas - パンダを使用して大きな HDF5 ファイルに文字列値を含む DataFrame チャンクを追加する際の例外
pandas.DataFrame()
ファイルサイズが約 47 GiB を超えた後、文字列値 (数値は OK) を HDF5 ストレージに追加するときに例外が発生します。文字列の最小サイズ、レコード数、列数も重要ではありません。ファイルサイズは重要です。
例外トレースの下部:
再現するコード:
環境: Windows7 x64 マシン、python 3.4.3、pandas 0.16.2、pytables 3.2.0、HDF5 1.8.14。
問題は、問題が上記の python コードにある場合は問題を修正する方法、または HDF5 に関連する場合は問題を回避する方法です。ありがとう。
python - Pandas で HDFStore から特殊文字を読み取るときの UnicodeDecode エラー
HDFStore に多くのメッセージを保存する必要があります。その中には、絵文字や éěščřžýáí のような特殊文字が含まれているものもあります。ロードしようとするまではすべて正常に動作しているように見えますが、以下のエラーでクラッシュします。エラーが発生するコードの例を次に示します
そして、ここにエラーがあります
私は Pandas 0.16.2 と PyTables 3.2.2 を持っています
python - Pandas HDFStore: 階層期間インデックスを使用したシリーズの保存と取得
まず、2 次元の階層インデックスを持つシリーズを作成します。それらのインデックス タイプは (pandas.period, numpy.int32) です。
次に、HDFStore を使用してシリーズ (ts1) を保存し、それを (ts2 として) 取得します。
これで、取得したシリーズ (ts2) のインデックスの dtype が整数に変更されました。
シリーズを適切に保存する方法はありますか?データを取得した後で型を変更できることはわかっていますが、私は仕事をきれいに行うことを好みます。
pandas 0.16.1 と pyhon 2.7.7 (Anaconda 2.0.1 (64 ビット)) を使用しています。
python - HDF5 (HDF Store) を Django モデル フィールドに格納する方法
私は現在、分析の結果として pandas DataFrames を生成するプロジェクトに取り組んでいます。私は Django で開発しており、「結果」モデルの「データ」フィールドを使用して pandas DataFrame を保存したいと考えています。
HDF5(HDF Store) は、私の pandas DataFrames を格納する最も効率的な方法のようです。ただし、モデルにカスタム フィールドを作成して保存する方法がわかりません。説明のために、簡略化した views.py と models.py を以下に示します。
models.py
ビュー.py
また、Django で使用できるのであれば、同様のパフォーマンスを持つ Pickle などの別の保存方法も受け入れます。
python - 「index = None」にもかかわらず、パンダ「to_hdf」でインデックスが繰り返される
HDFS ファイルにデータを保存したいのですが、そのファイルに新しいデータを追加すると、インデックスが繰り返されます。どうすれば回避できるか教えてください。
で値を追加index=None
インデックスが繰り返されます...
私はパンダ0.17.0
、Pythonを使用しています3.4.3
ありがとう。
python - 列名が整数の場合、値に基づいて HDFStore テーブルからデータを選択します
を使用してpandas.HDFStore
いますが、やりたいことの説明が見つかりません。つまりselect
、値にフィルターを指定してメソッドを使用します。
私が達成したいことは次のとおりです。table
列が整数のように見える文字列であるストアに があり、ドキュメントに書かれているように値をフィルタリングできるようにしたいと考えています。
私の列名は次のとおりです。
だから、私はこれを試しました:
しかし、次の例外があります。
次の式でも試しましたが、結果は同じです。
この場合、誰か私にヒントがありますか?
これらの列名は、コードの他の部分でキーとして使用されるため、そのままにしておくことをお勧めします。
追加メモ: 私はすでに次のようなクールなことを行うことができます: