現在、SparkR と sparklyr パッケージを使用していますが、これらは高次元のスパース データ セットには適していないと思います。
どちらのパッケージにも、いくつかの列または行の単純な論理条件によって、データ フレームの列と行を選択/フィルター処理できるパラダイムがあります。しかし、これは多くの場合、そのような大規模なデータ セットに対して行うことではありません。そこでは、何百もの行または列エントリの値に基づいて行と列を選択する必要があります。多くの場合、最初に各行/列の統計を計算してから、これらの値を選択に使用する必要があります。または、データ フレームのみの特定の値に対処する必要があります。
例えば、
欠損値が 75% 未満のすべての行または列を選択するにはどうすればよいですか?
各列または行から導出された列または行固有の値で欠損値を代入するにはどうすればよいですか?
(#2) を解決するには、データ フレームの各行または列に対して個別に関数を実行する必要があります。ただし、SparkR の dapplyCollect のような関数でさえ、遅すぎるため、実際には役に立ちません。
何かが足りないのかもしれませんが、SparkR と sparklyr はこれらの状況ではあまり役に立ちません。私が間違っている?
余談ですが、欠損値の処理などの厳しい制限がある場合、 MLlib や H2O などのライブラリを Sparklyrと統合する方法がわかりません。