2

Google のドキュメントを確認したところ、Spark ジョブを Dataproc クラスタに送信し、クラスタ内に JupyterLab をインストールして、ノートブックで反復操作を実行できました。

しかし、DataProc クラスター リソースを使用してローカルの Jupyer Notebook (自分のマシン上) から反復コマンドを実行するための適切な構成を見つけることができませんでした。

ローカルの JupyterLab からクラスターを作成し、pySpark (Koalas) を使用して、BigQuery と GCS でホストされている大規模なデータフレームに対して一連の操作を実行することに特に興味があります。私の目標は、クラスタ マシンまたは Vertex IA 内の JupyterLab インストールにアクセスするのと同じ方法で、ローカルの JupyerLab で Dataproc を使用することです。

誰もそれを構成する方法を知っていますか?

4

1 に答える 1