問題タブ [dask-dataframe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Dask Distributed で SQLAlchemy クエリを実行するには?
ローカル コンピューターから実行するのに十分なメモリがないため、セットアップした dask クラスターを使用して、この sqlalchemy クエリを実行および並列化しようとしています。
私のコードは次のとおりです-これがこれを達成するための最良の方法であるかどうかはわかりません:
次のエラーが表示されます。
python - Dask で過去 n 日間のローリング平均を計算する
大規模なデータセットで過去 n 日間 (n = 30) のローリング平均を計算しようとしています。Pandas では、次のコマンドを使用します。
基本的に、関数は「id コード」でグループ化し、「entry_time_flat」(日時オブジェクト) の最後の n 日間について、機能「期間」の平均値を計算します。
ただし、コードの効率を維持するために、Pandas DF に変換せずに、この関数を Dask データフレームで再現することをお勧めします。
前述のコードを Dask DF で実行すると、次のエラーが発生します。
最終的に、Daskデータフレームの過去n日間の「期間」列の平均を計算するにはどうすればよいですか?
pandas - Das: 送信されたジョブ内から公開されたデータセットにアクセスする
それはそこにある:
dask の送信関数を作成します。ここでは、公開されたデータセットに名前でアクセスしたいと思います。
そして最後に提出します:
これは生成されますが、次のようになります0.5
。
では、dask ジョブ内published dataset
からどのようにアクセスできますか?
python - 寄木細工のファイルを読み取り、dask データフレームとして処理するのに最適な方法
小さな寄木細工のファイル(600)を含むディレクトリがあり、それらの寄木細工でETLを実行し、それらの寄木細工を各ファイルに128MBにマージしたかったのです。データを処理する最適な方法は何ですか。
parquet ディレクトリ内の各ファイルを読み取り、1 つのデータ フレームとして連結して groupBY を実行する必要がありますか? または寄木細工のディレクトリ名を dd.read_parquet に指定して処理しますか?
ファイルごとに読み取ると、画像として収まらない非常に大きなダッシュグラフが作成されるように感じます。これらの多くのスレッドでも機能すると思いますか?これはメモリエラーにつながります。
寄木細工のファイルを読み取り、dask データフレームとして処理するのに最適な方法はどれですか? ファイルごとに、またはディレクトリ全体を提供しますか??