13

データ フレームをキャッシュしてから、別のスクリプトで参照 (クエリ) することは可能ですか?...私の目標は次のとおりです。

  1. スクリプト 1 で、データ フレーム (df) を作成します。
  2. スクリプト 1 を実行して df をキャッシュする
  3. スクリプト 2 では、df のデータをクエリします
4

2 に答える 2

7

標準の Spark バイナリを使用することはできません。SparkDataFrameは、それを作成するために使用された特定のものにバインドされSQLContextており、その外部からアクセスすることはできません。

Apache Zeppelin や Databricks など、さまざまなセッションに挿入された共有コンテキストを使用するツールがあります。これにより、異なるセッションやゲスト言語間で一時テーブルを共有できます。

spark-jobserverおよびApache Igniteなど、分散データ構造を共有するための代替手段を提供する他のプラットフォームがあります。Livy サーバーもご覧ください。

参照: Java と R アプリ間で SparkContext を同じマスターの下で共有する

于 2016-02-23T17:15:17.790 に答える
0

実際のデータをファイル/データベースに保存して、再度ロードすることもできます。Spark にはこれを行うためのメソッドが用意されているため、ドライバーにデータを収集する必要はありません。

于 2016-11-01T11:32:44.547 に答える