9

私が理解している限りでは、これら 2 つのパッケージは Apache Spark に対して似ているがほとんど異なるラッパー関数を提供します。Sparklyr は新しく、機能の範囲を拡大する必要があります。したがって、機能の全範囲を取得するには、現在両方のパッケージを使用する必要があると思います。

どちらのパッケージも基本的に、scala クラスの Java インスタンスへの参照をラップしているため、パッケージを並行して使用できるはずです。しかし、それは実際に可能ですか?ベストプラクティスは何ですか?

4

1 に答える 1

4

これら 2 つのパッケージは異なるメカニズムを使用しており、相互運用性を考慮して設計されていません。それらの内部はさまざまな方法で設計されており、JVM バックエンドを同じ方法で公開していません。

永続的なメタストアを使用して部分的なデータ共有 (グローバル一時ビューの使用が思い浮かびます) を可能にするソリューションを考えることができますが、アプリケーションはかなり制限されます。

両方が必要な場合は、パイプラインを複数のステップに分割し、永続ストレージを使用してこれらの間でデータを渡すことをお勧めします。

于 2019-01-26T18:44:00.410 に答える