クラスタの起動時に Dataproc クラスタに Python ライブラリを自動的にインストールするにはどうすればよいですか? これにより、必要なライブラリを手動でインストールするためにマスター ノードやワーカー ノードに手動でログインする手間が省けます。
また、この自動インストールがワーカーではなくマスターにのみインストールできるかどうかも知っておくとよいでしょう。
クラスタの起動時に Dataproc クラスタに Python ライブラリを自動的にインストールするにはどうすればよいですか? これにより、必要なライブラリを手動でインストールするためにマスター ノードやワーカー ノードに手動でログインする手間が省けます。
また、この自動インストールがワーカーではなくマスターにのみインストールできるかどうかも知っておくとよいでしょう。
初期化アクションは、これを行うための最良の方法です。初期化アクションは、クラスターの作成時に実行されるシェル スクリプトです。これにより、Python ライブラリのインストールなど、クラスターをカスタマイズできます。これらのスクリプトは Google Cloud Storage に保存する必要があり、Google Cloud SDK または Google Developers Console を介してクラスターを作成するときに使用できます。
マスター ノードでのみクラスター作成時に Python pandasをインストールする初期化アクションの例を次に示します。
#!/bin/sh
ROLE=$(/usr/share/google/get_metadata_value attributes/role)
if [[ "${ROLE}" == 'Master' ]]; then
apt-get install python-pandas -y
fi
このスクリプトからわかるように、ノードの役割を識別して、/usr/share/google/get_metadata_value attributes/role特にマスター (またはワーカー) ノードでアクションを実行できます。
詳細については、Google Cloud Dataproc のドキュメントをご覧ください。