問題タブ [sparklyr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Sparklyr:列に基づいてSparkテーブルを中央に配置する方法は?
私はSparkテーブルを持っています:
このテーブルsimX_tbl
に接続されている R 環境で名前が付けられたハンドル。simx
このテーブルのセンタリングを行いたいと思います。これは、各列をその列の平均で減算することです。たとえば、 などを計算x0 - mean(x0)
します。
これまでのところ、私の最善の努力は次のとおりです。
for
これは、ループを数回の反復に制限すると実際に機能します ( 1:5
)x_centered %>% head
結果は正しいです。しかし、これを 789 回繰り返して実行すると、次のエラーが発生しますhead
。
以下は、Cスタック使用エラーを示す、私がすでに試した出力方法です。
後で各列の相関係数を計算する必要がありますが、このエラーで出力できるとは思いません。
このセンタリングを正しく/効率的に行う方法はありますか? Cstack制限の引き上げに関するこの質問を読みましたが、データが非常に大きく、より大きなデータで再び制限を超えるリスクがあるため、解決策ではないと思います. 実際のデータは 40 GB 以上で、現在使用しているデータはほんの一部です (789 列 x 10000 行)。
Spark のバージョンは 1.6.0 です
編集:タイトルをより明確にし、試した出力方法を追加