問題タブ [spark-koalas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - pyspark koalas 上の pandas の分散インデックスが期待どおりに機能しない
pyspark の pandas には、3 種類のデフォルト インデックスがあります。私は彼らの言った行動を再現することができません:
テストするための設定:
- シーケンスタイプ
- データは同じノードで収集されます (データフレームには 1 つのパーティションのみが必要ですか?)
- デフォルトのインデックスは [0,1,2,3,...] (単調に 1 ずつ増加)
テスト:
質問: デフォルトのインデックスが「sequence」に設定されている場合、すべてのデータを 1 つのノードで収集する必要があるため、パーティションの数が 1 でないのはなぜですか。
- 分布系列
- 分散方式でインデックスを計算および生成しますが、グローバル シーケンスを内部で生成するには、別の追加の Spark ジョブが必要です。また、結果の自然な順序を保証するものではありません。一般に、それは継続的に増加する数になります。
テスト:
質問: データフレームが 8 つのコアすべてに分散されるのは予期された動作ですが、インデックスは順序付けされるべきではありません。この動作もsequence
type default index only のようです。
- 分散
- 「分散型」インデックスはパフォーマンスの低下がほとんどなく、常に単調に増加する数値を作成します。各行の一意の番号または行の順序としてインデックスが必要な場合は、このインデックス タイプが最適です。ただし、数値には不確定なギャップがあります
テスト:
質問: これもsequence
型の動作のみです。生成されるインデックスは、1 から任意の場所までの順序付けられたシーケンスです。不確定なギャップで単調に増加する数値である必要があります。
私が正しく理解していないことと、デフォルトのインデックスの 3 つのタイプすべてで正確に予想される動作は何ですか?