問題タブ [pytables]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
313 参照

numpy - 非常に大きな 1D 配列の並べ替え

初めて Pytables を試してみようとしています。時間ステップごとにデータを hdf ファイルに書き込む必要があります。タイム ステップ数は 100,000 を超えます。完了したら、100,000+ x 6 の配列を列 2 で並べ替えたいと思います。つまり、現在、すべてを時間で並べ替えていますが、降雨率の降順 (列 2) で配列を並べ替える必要があります。ここから始める方法さえわかりません。配列全体をメモリに入れるのは賢明ではないことを知っています。これを迅速かつ効率的に行う方法はありますか?

アドバイスをいただければ幸いです。

0 投票する
1 に答える
537 参照

python - `slice` オブジェクトを使用して pytables.CArray を読み取る方法は?

sliceオブジェクトを使用して にアクセスするにはどうすればよいtables.CArrayですか? 私が現在持っているのは

0 投票する
2 に答える
1718 参照

python - 大規模な疎行列を効率的に格納 (float)

疎行列の約 1000 万個の浮動小数点数 (倍精度) を格納するソリューションを探しています。この行列は、実際には 100 万 x 100 万の要素で構成される 2 次元の三角行列です。elementは、 elementと elementの間の(i,j)実際のスコア メジャーです。格納方法は、おそらく行列を含むファイルのメモリ マッピングによって、この情報への非常に高速なアクセスを可能にする必要があります。私は確かにすべてのファイルをメモリにロードしたくありません。score(i,j)ij

pytablesクラスを公開して使用しようとしましたが、すべての行をスキャンしないScoreと要素に直接アクセスできません。i,jなにか提案を?

0 投票する
1 に答える
1471 参照

python - Pytables。一意の値を反復処理する方法は?

Pytablesにデータセットがあります。

同じ日付に複数のアイテムがあります。例:

一意の日付を繰り返してから、その日付のアイテムを繰り返す方法はありますか?私は次のようなものを意味します

0 投票する
1 に答える
772 参照

python - Pythonによる分散メモリクラスターでの「グローバル配列」並列プログラミング

numpy の機能を分散メモリ クラスターでの操作に拡張する Python ライブラリを探しています。つまり、「プログラマーが配列を、異なるプロセッサに配置された複数の独立した配列ではなく、単一のグローバル配列と見なす並列プログラミング モデルです。 "

Matlab については、MIT の Lincoln Lab がpMatlabを作成しました。これにより、並列プログラミングの側面の詳細についてあまり心配することなく、クラスターで行列代数を実行できます。(上記引用元)

ディスクベースのストレージの場合、python 用の pyTables が存在します。クラスタ内での計算の分散方法を最適化するのではなく、ディスク上の大きなデータに関して計算を「分散」する方法を最適化します。- これはかなり似ていますが、まだ重要な側面が欠けています。

目的は、クラスターからパフォーマンスの最後のビットを絞り出すことではなく、単一のマシンには大きすぎる科学的計算を (半対話的に) 行うことです。

Pythonにも同様のものが存在しますか? 私のウィッシュリストは次のとおりです。

  • 積極的に維持
  • numpyの代わりにドロップイン
  • あるいは、 numexprと同様の使用法
  • 並列プログラミング部分の高度な抽象化: つまり、ユーザーが明示的に MPI を使用する必要はありません。
  • 分散メモリ クラスタでのデータ局所性のサポート
  • クラスタ内のマルチコア マシンのサポート

これはおそらく、歯の妖精を信じることに少し似ていますが、誰にもわかりません...

私はこれまでに見つけました:

  1. パシフィック ノースウェスト国立研究所による Global Array 用の Python インターフェイスがあります (存在する/存在していました)。トピック「NumPy と Global Arrays Toolkit を使用した Python での高性能並列計算」の下のリンクを参照してください。(特に「GA_SciPy2011_Tutorial.pdf」。)しかし、これもまた消えてしまったようです。

  2. DistNumPy :このペーパーで詳しく説明します。しかし、プロジェクトは放棄されたようです。

パッケージを知っているか、上記の 2 つのいずれかを使用したことがある場合は、その使用経験について説明してください。

0 投票する
1 に答える
23626 参照

python - Python で数百万行の 2 つのテーブルをマージする

私はいくつかのデータ分析に Python を使用しています。私は 2 つのテーブルを持っています。1 つ目 (「A」と呼びましょう) には 1,000 万行と 10 列があり、2 つ目 (「B」) には 7,300 万行と 2 列があります。共通の ID を持つ 1 つの列があり、その列に基づいて 2 つのテーブルを交差させたいと考えています。特に、テーブルの内部結合が必要です。

パンダで通常のマージ機能を使用するために、テーブル B をメモリに pandas データフレームとしてロードできませんでした。テーブル B のファイルをチャンクで読み取り、各チャンクを A と交差させ、これらの交差を連結してみました (内部結合からの出力)。これは速度的には問題ありませんが、時々これにより問題が発生し、セグメンテーション違反が発生します...それほど素晴らしいことではありません. このエラーは再現が困難ですが、2 つの異なるマシン (Mac OS X v10.6 (Snow Leopard) と UNIX、Red Hat Linux) で発生します。

最後に、テーブル B をディスクに書き込み、テーブル A を反復処理してテーブル B から一致する行を選択することで、Pandas と PyTables の組み合わせを試しました。この最後のオプションは機能しますが、遅いです。pytables のテーブル B は、デフォルトで既にインデックスが作成されています。

どうすればこの問題に取り組むことができますか?

0 投票する
1 に答える
182 参照

python - HDF5 テーブルのタイトルを変更する方法 (pytables を使用して作成)

HDF5 tableを使用して、Python コードで作成した のタイトルを変更する方法があるかどうか疑問に思っていましたpyTables。間違ったタイトル文字列を付けたので、今すぐ変更する必要があるため、Python で再度開くと、タイトルに従って、ロードした他のテーブルと区別できます。

0 投票する
3 に答える
116 参照

python - PyTables配列のサイズ(バイト単位)を決定する方法は?

PyTables配列のサイズ(バイト単位)を確認するにはどうすればよいですか?

0 投票する
1 に答える
428 参照

python - Enthought Python for OSX10.8.2のPytables

私はOSXでPythonでpytablesと基盤となるHDF5ライブラリを動作させるのに苦労していたので、Enthoughtディストリビューションを試してみようと思いました(これにより、後でプラットフォーム間での展開も大幅に簡素化されます)。

64ビットOSX用にEPD7.3をインストールしました(10.8.2を実行しています)が、残念ながら成功しません。pytablesをロードしようとすると次のようになります...

これは、HDF5に必要なライブラリであるszipが見つからないことを意味していると思いますか?それが実際にEPDから欠落している場合(奇妙に思えます...)、ソースからHDF5をビルドせずに自分でインストールできますか?それとも奇妙な場所にありますか?