問題タブ [pyspark-dataframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pyspark - 2 つの異なる RDD を 2 つの異なるデータ セットと組み合わせますが、キーは同じです
RDD_1 には、次のような行が含まれます。
RDD_2 には、次のような行が含まれます。
私がやろうとしているのは、次の形式でrddを取得することです
そのため、場所の列を距離の列に置き換えようとしています。
rdd1.join(rdd2) は私に与えます:
そして rdd1.union(rdd2) は私に与えます:
pyspark - pysparkの日付列に基づく条件文
pyspark で何らかの条件に基づいて新しい列を作成したいと考えています。私のデータフレーム -
すべての列は文字列形式です。私の状態は -
txn_date >= create_date。この条件に基づいて、新しい列「is_mem」を作成します。
私の最終的なデータフレームは次のようになります-
pysparkでそれを行う方法は?