問題タブ [dask-dataframe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dask - Dask で GroupBy のカスタム集計関数を追加する方法は? たとえば、平均、最頻値、中央値、95 パーセンタイルなど
次のコードで、chunk、agg、および finalizeが何であるかを理解できません。
また、その種類と実装方法。誰かが Daskで同じことをガイド/手伝ってくれますか?
pandas - daskデータフレームのmap_partitionsでディレクトリ名を取得
dask データフレームの結果に関するヘルプを探しています。144個のcsvファイルからの144個のデータフレームを持つdaskデータフレームがあります。これらのデータフレームの 1 つの列から最大値を取得し、それが属するフォルダーの名前と共に返したいと思います。探している結果を取得するために map_patitions を使用してきましたが、パーティションの結果に関連付けられた識別子がないため、結果を他の用途に適用することは困難です。どんな助けでも大歓迎です!私が使用しているコードのサンプルは次のとおりです。
結果には、必要な値が含まれており、「列 1」としてインデックスが付けられています。フォルダーの名前 (基本的には * フォルダー) をインデックスとして使用したいと思います。私の最終目標は、フォルダーまたはディレクトリ名のインデックスと関数から返される最大値の列を持つデータフレームです。
python - DASK では、整数の範囲 (自動インクリメント) を新しい列にどのように追加しますか?
自動インクリメント ID を含む列を DASK データフレームに追加する必要があります。SOでPandasソリューションを見つけたので、Pandasでそれを行う方法を考えていますが、DASKでそれを行う方法がわかりません。私の最善の試みは次のようになり、自動インクリメント関数は 100 行のテスト ファイルに対して 2 回しか実行されず、すべての ID が 2 であることがわかりました。
パンダのやり方はこんな感じ
または、特定の CSV 行の行番号を取得してそれを列に追加できれば、それは素晴らしいことですが、この段階では簡単に可能ではないようです。