問題タブ [pytables]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - numpy レコード配列のフィールド形式をリストとして取得する
再配列をpytableに追加する目的で、pytableと再配列の形式を正規化しようとしています。これを行うには、再配列からフィールド情報 (つまり、名前とフィールド形式) を取得する必要があります。次を使用して、再配列名のリストを簡単に取得できます。
対応するプロパティが見つかりませんでした。recarray dtypes プロパティは、名前と形式のタプル リストを返しますが、このリストを繰り返し処理して形式を取得することはできません。特定のタプル項目を取得するためにタプルの他のリストを反復処理できるため、これは非標準のようです。たとえば、次のコードは、配列と再配列の反復を示し、再配列の dtype のタプルのリストを反復しようとします。
このコード (以下に示す) からの出力は、次のことができることを示唆しています。1) タプルのリストを反復処理します。
2) 再配列を繰り返します。3) レコード配列の dtype を見かけのタプルのリストとして取得します。
4) 再配列から名前を取得する 5) 再配列の 1 つのフィールドの形式を取得する
しかし、私はできません:
6) recarray dtype を反復して各フィールドのフォーマットを取得する 7) recarray dtype キャストを配列として反復して各フィールドのフォーマットを取得する
出力は次のとおりです。
レコード配列からフィールド形式をリストとして取得する方法を知っている人はいますか?
python - テーブルからpytablesファイル名を決定する方法
テーブルインスタンス(または「ノード」)を渡すアプリケーションがあります。途中のいくつかの場所で親ファイルのファイル名を知る必要があります。これを返す組み込みのメソッドが見つからないようです。出来ますか?
たとえば、以下の「get_parent_file」機能を探しています。
python - データ分析と学習のための Python パッケージの推奨事項
記事公開プラットフォームの上に分析エンジンを構築したいと考えています。より具体的には、ユーザーの読書行動 (記事の閲覧回数、記事を開いた時間、評価など) と、記事自体の統計 (段落数、著者など) を追跡したいと考えています。 )。
これには 2 つの目的があります。
- ユーザーと記事に関する洞察を提示する
- ユーザーにおすすめを提供する
データ分析の部分では、 cubes、pandas 、およびpytablesを見てきました。大量のデータがあり、MySQL テーブルに格納されています。これらのパッケージのどれがそのようなバックエンドをより適切に処理できるかわかりません。
レコメンデーションの部分については、データ分析エンジンからクラスタリング モデルにデータをフィードすることだけを考えています。
これらすべてをまとめる方法についての推奨事項、および私を助けることができるクールな python プロジェクトはありますか? さらに情報を提供する必要がある場合はお知らせください。
ありがとうございました
dataset - Pandas + PyTables を使用してデータセットを管理および処理するための設計戦略
numpy の常連ユーザーである私は、Pandas の構文と概念に惚れ込み、非常に堅牢でパフォーマンス指向の PyTables について読み始めました。
私の主な疑問は次のとおりです。
- Pandas + PyTables で構成された自家製のフレームワークを使用する場合、データ処理パイプライン (データのインポート、変換、分析、保存、取得) のどのレイヤーをそれぞれに委任する必要がありますか?
- Pandas の生まれ持った才能とは? PyTables の生まれつきの才能とどのように関連しているか、そしてそれらの才能がどのように関連しているか?
- それらは直交/補完的/独立していますか、それとも何らかの形で機能が重複していますか?
- それらはどのように互いに区別されますか?
光をありがとう!
python - 列全体を読み取るためにpytables/HDF5のchunkshapeパラメータを最適化
テーブルの作成時に を指定して、pytables/HDF5 コードのパフォーマンスを改善しようとしてchunkshape
います。chunkshape
パラメータの実際の寸法や形式がわかりません。コードから、最終的に単一の要素を持つタプルになることがわかります。
この単一の要素は、行数、バイト数、または何であると想定されていますか?
私の特定の問題は、20 列の HDF5 テーブルを作成する既存のコードがあることです。各列がディスクに連続して格納されるように、テーブルのチャンクを変更したいと思います。したがって、列全体を一度に読み取るように最適化します。
チャンクシェイプを 20 (列数) に設定してみましたが、これにより列全体を読み取るパフォーマンスが劇的に低下しました。チャンク形状を単一行の幅 (バイト単位) に設定する必要がありますか?
次の場合、chunkshapeがどうあるべきかを知りたいだけです:
- コラム全体をできるだけ早く読みたい。
- テーブル内の列数を正確に知っています。
- 下位互換性の理由から、単純にテーブルを変更して既存の行を列として、またはその逆にすることはできません。
python - numpy zero rearray から作成/追加すると、余分なレコードが pytable テーブルに表示される
(この質問は元の作成者によって変更されており、サンプル コードは変更されているため、お使いのマシンで実行できます)
時系列データをpytablesにロードしています(このテストケースでは、最大200万行、23列のほとんどが浮動小数点値です)。また、同じpytableファイルに、同じ数の行と列、および列名を持つ対応するテーブルを作成したいと思いますが、品質管理の「マスク」として使用されるint8データ型を使用します。これを行うには、データ テーブルから列名と行数情報を取得し、これを使用して、品質管理 pytable テーブルの作成/追加に使用される numpy ゼロ レコード配列を作成します。
この問題は、numpy ゼロ レコード配列を新しい「マスク」pytable に追加すると発生します。pytable の作成/追加に使用される numpy ゼロ レコード配列は正しいサイズですが、結果の pytable は予想よりもかなり大きくなります。
次の実行可能なコード例は、問題を示しています。pytable を作成し、値がゼロのレコードの「nrows」を含むテーブルを作成することを期待して、numpy zero rearrays をテーブルに追加します。結果の pytable には、Vitables で表示したときに予想よりも多くの行があります
これらの余分なデータ行がどこから来ているのかわかりませんか? 任意の提案をいただければ幸いです。
Python 2.7.2、pytables 2.3.1、numpy 1.6.1.1 を使用
以下は、numpy zero rearrays が品質管理 pytable に書き込まれるときに作成される print ステートメントの出力です。
python - PyTablesでhdf5ファイルの値を削除しようとしていますが、ファイルサイズは縮小していません
重複の可能性:
HDF5 ファイルからのデータの削除
次のようなグループ構造を含む hdf5 ファイルがあります。
これを繰り返して、「他のフィールド」を削除したいと思います。私はこれを行で達成します
h5file.removeNode(db, field_name, recursive=True) ここで、db は「Some name of some db」のオブジェクトで、フィールド名は文字列「Some other field」です。
フラッシュして保存すると、グループは削除されますが (yay!)、ファイル サイズは同じです (boo!)。この場合、最初のファイル サイズは 1.2Gb で、データの約 95% を含むグループを削除しました (約 20 の「フィールド」のうち 1 つだけを保持しました)。
何か不足していますか?グループはどういうわけか単なるメタデータであり、基礎となる配列データはまだ何らかの形でそこにあるのでしょうか? 必要な情報だけを含む小さなファイルを作成するにはどうすればよいですか?
どんなヒントでも大歓迎です。
pandas - pandas DataFrame への Pytables テーブル
csv を pandas データフレームに読み込む方法に関する多くの情報がありますが、私が持っているのは pyTable テーブルであり、pandas DataFrame が必要です。
pandas DataFrameをpytablesに保存する方法を見つけました...次に、読み返したいと思います。この時点で次のようになります。
私はそれをcsvとして書き出して再読み込みすることができましたが、それはばかげているようです. それが今のところ私がしていることです。
pytableオブジェクトをパンダに読み込むにはどうすればよいですか?
pytables - ネストされたpytable
辞書を pytable コンストラクターに渡すとします。
h5f.createTable('/','table',{'col1':Float64Col(pos=0),'col2':StringCol(16,pos=1)})
ネストされた pytables に関連する次の 3 つの初心者の質問があります。
1)ネストされたpytableを作成するために辞書記述子をどのように使用しますか? 2) ネストされた列の位置をどのように割り当てますか? 最上位の列の位置が pos=1 の場合、そのサブ列の番号は 0 から始めますか? 3) ネストされた列に行をどのように割り当てますか?
助けてくれてありがとう!
hdf5 - `pipinstalltables`はエラーで失敗します::ローカルHDF5インストールが見つかりませんでした
MacOSXにPyTablesをインストールしようとすると表示される詳細なエラーメッセージは次のとおりです。
私のhdf5-18ライブラリはmacports経由でインストールされます。彼らはここで見つけることができます-
pip install tables
hdf5インストールを探す場所を知るにはどうすればよいですか?