データ フレームをキャッシュしてから、別のスクリプトで参照 (クエリ) することは可能ですか?...私の目標は次のとおりです。
- スクリプト 1 で、データ フレーム (df) を作成します。
- スクリプト 1 を実行して df をキャッシュする
- スクリプト 2 では、df のデータをクエリします
データ フレームをキャッシュしてから、別のスクリプトで参照 (クエリ) することは可能ですか?...私の目標は次のとおりです。
標準の Spark バイナリを使用することはできません。SparkDataFrame
は、それを作成するために使用された特定のものにバインドされSQLContext
ており、その外部からアクセスすることはできません。
Apache Zeppelin や Databricks など、さまざまなセッションに挿入された共有コンテキストを使用するツールがあります。これにより、異なるセッションやゲスト言語間で一時テーブルを共有できます。
spark-jobserver
およびApache Igniteなど、分散データ構造を共有するための代替手段を提供する他のプラットフォームがあります。Livy サーバーもご覧ください。
実際のデータをファイル/データベースに保存して、再度ロードすることもできます。Spark にはこれを行うためのメソッドが用意されているため、ドライバーにデータを収集する必要はありません。