r - SparkR と Sparklyr を使用した Spark データフレームの操作 - 非現実的な設定ですか?

Question

現在、SparkR と sparklyr パッケージを使用していますが、これらは高次元のスパースデータセットには適していないと思います。

どちらのパッケージにも、いくつかの列または行の単純な論理条件によって、データフレームの列と行を選択/フィルター処理できるパラダイムがあります。しかし、これは多くの場合、そのような大規模なデータセットに対して行うことではありません。そこでは、何百もの行または列エントリの値に基づいて行と列を選択する必要があります。多くの場合、最初に各行/列の統計を計算してから、これらの値を選択に使用する必要があります。または、データフレームのみの特定の値に対処する必要があります。

例えば、

欠損値が 75% 未満のすべての行または列を選択するにはどうすればよいですか?
各列または行から導出された列または行固有の値で欠損値を代入するにはどうすればよいですか?
(#2) を解決するには、データフレームの各行または列に対して個別に関数を実行する必要があります。ただし、SparkR の dapplyCollect のような関数でさえ、遅すぎるため、実際には役に立ちません。

何かが足りないのかもしれませんが、SparkR と sparklyr はこれらの状況ではあまり役に立ちません。私が間違っている？

余談ですが、欠損値の処理などの厳しい制限がある場合、 MLlib や H2O などのライブラリを Sparklyrと統合する方法がわかりません。

r - SparkR と Sparklyr を使用した Spark データ フレームの操作 - 非現実的な設定ですか?

0 に答える 0

Related

Reference

r - SparkR と Sparklyr を使用した Spark データフレームの操作 - 非現実的な設定ですか?