問題タブ [sparklyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
969 参照

r - Sparklyr:列に基づいてSparkテーブルを中央に配置する方法は?

私はSparkテーブルを持っています:

このテーブルsimX_tblに接続されている R 環境で名前が付けられたハンドル。simx

このテーブルのセンタリングを行いたいと思います。これは、各列をその列の平均で減算することです。たとえば、 などを計算x0 - mean(x0)します。

これまでのところ、私の最善の努力は次のとおりです。

forこれは、ループを数回の反復に制限すると実際に機能します ( 1:5)x_centered %>% head結果は正しいです。しかし、これを 789 回繰り返して実行すると、次のエラーが発生しますhead

以下は、Cスタック使用エラーを示す、私がすでに試した出力方法です。

後で各列の相関係数を計算する必要がありますが、このエラーで出力できるとは思いません。

このセンタリングを正しく/効率的に行う方法はありますか? Cstack制限の引き上げに関するこの質問を読みましたが、データが非常に大きく、より大きなデータで再び制限を超えるリスクがあるため、解決策ではないと思います. 実際のデータは 40 GB 以上で、現在使用しているデータはほんの一部です (789 列 x 10000 行)。

Spark のバージョンは 1.6.0 です

編集:タイトルをより明確にし、試した出力方法を追加