問題タブ [custom-function]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark Scala - データフレーム行をグループ化し、複雑な関数をグループに適用する方法は?
私はこの非常に単純な問題を解決しようとしていますが、すでにうんざりしています。誰かがこれを手伝ってくれることを願っています. 次のような形状のデータフレームがあります。
これらの行をカテゴリ別にグループ化し、Scala で複雑な関数を適用するにはどうすればよいですか? 多分このようなもの:
この myComplexFunction は、カテゴリごとに次のテーブルを生成し、ペアごとの類似性を Hive テーブルにアップロードするか、HDFS に保存する必要があります。
適用したい関数は次のとおりです(各カテゴリ内のアイテム間のコサイン類似度を計算するだけです):
私はすでに次のことを試しました:
理由はわかりませんが、このアプローチは並列ではなく順次実行されます。
excel - ピボット テーブルの計算フィールドを使用して条件値を合計する
次のデータセットがあります。
この列は、番号が確認されているExpected
かどうかを示します。Revenue
ここで、月ごとの収益を合計するピボット テーブルが必要です。最終結果は次のようになります。
私の計算フィールドは次のようになっているため、11 月の月にはこれを機能させることができないようです。
一部の数値では機能しないため、追加する*1
必要があったため、現時点ではこれを精神的に無視できます.
いずれにせよ、この結果は次のとおりです。
ここで誰かが私を正しい方向に向けることができますか? この理由は、Expected 列が最初に合計され、次に IF 比較が行われる可能性が高いことを理解しています。これを回避する方法はありますか?