問題タブ [pyspark-dataframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 重複レコードはpysparkの他の一時テーブルに移動します
私はPysparkを使用しています
私の入力データは以下のようになります。
私は DataFrame を作成し、以下のように重複をクエリしています。
これにより正しい結果が得られますが、別の一時テーブルで重複する値を取得できます。
temp2 の出力データ
pandas - 2 つのデータフレームを反復し、pandas または pyspark の値を比較して変更します
私はパンダで運動をしようとしています。
2 つのデータフレームがあります。両方のデータフレーム間でいくつかの列を比較し、比較が成功した場合は最初のデータフレームの 1 つの列の値を変更する必要があります。
データフレーム 1:
最初は、すべての記事の「購入」フラグがゼロに設定されています。次のようなデータフレーム 2 があります。
記事、国/原産地、および色の列が一致するかどうかを確認したい (したがって、データフレーム 1 の各記事をデータフレーム 2 で見つけることができるかどうかを確認します)。一致する場合は、「購入」フラグを 1 に設定します。
pyspark を使用して両方のデータフレームを反復しようとしていますが、pyspark daatframes は反復可能ではありません。パンダでやろうと思ったのですが、反復中に値を変更するのは明らかに悪い習慣です。
pyspark または pandas のどのコードが、必要なことを実行するために機能しますか?
ありがとう!
apache-spark - Spark 2.4.3 - データベース テーブル スキーマに数値型がある場合はどうすればよいですか?
Spark を使用してデータベース テーブル (Teradata) からデータをロードする必要がありますが、テーブルのスキーマには精度とスケールのない NUMBER 型があります。ここでわかるようにhttps://github.com/apache/spark/pull/8780。
そのため、これらの列に Float 値を持つ「NUMBER」の列を含むテーブルをロードすると、spark データフレームでこれらの値の精度が NUMBER(38,0) として表示され、これらの値の精度が失われます。
例:
テラデータ:
データフレーム スパーク:
誰かが私を助けることができますか?
python-3.x - pyspark の列の各行の入力文字列を辞書に変換するにはどうすればよいですか
以下のような文字列入力を受け取るデータフレームの列値があります。ここで、startIndex は各文字の開始インデックス、終了インデックスは文字列内のその文字の出現の終わり、フラグは文字自体です。
以下に示すように、各行の文字列を辞書に変換したいと思います。
ディクショナリを構成するための疑似コードがありますが、ループを使用せずに一度にすべての行に適用する方法がわかりません。また、このようなアプローチの問題は、最後のフレーム化された辞書のみがすべての行で上書きされることです
pyspark - 長さが異なる 2 つの列を比較する
私は 2 つの pyspark データフレームを使用しており、それぞれに 1 つの列があります。1 つは 3 行 (ColumnA)、もう 1 つは 100 行 (ColumnB) です。ColumnA のすべての行を ColumnB のすべての行と比較したいと思います。(ColumnA の日付のいずれかが ColumnB の日付よりも大きいかどうかを知る必要があります。その場合は、ColumnX に 1 を追加します)
任意の提案をいただければ幸いです。ありがとうございました!