1

私は Google の Datalab の新しいユーザーです。本番データ パイプラインに Datalab を使用する可能性を評価しています。これは、インタラクティブなノートブックとしてではなく、Python プログラムとしてデータ処理を実行できるようにしたいということです。Datalab は、インタラクティブな jupyter ノートブックの使用向けに設計されているようです。しかし、サインアップ プロセス中に、ユーザーがデータ パイプライン全体を実行できるという画面が表示されたのを覚えています。しかし、すべてのドキュメントはインタラクティブなデータ分析についてのみ述べており、プログラムによるデータ分析については言及していません。また、定期的にcronジョブでスクリプトを実行したいと考えています。1) Datalab で Python スクリプトを実行するにはどうすればよいですか? 2) cronjob で定期的に実行するにはどうすればよいですか?

誰かが光を当てることができれば非常に役に立ちます。前もって感謝します!

4

2 に答える 2

0

このスタックオーバーフローの投稿で回答されているように、サポートされている方法で追加の Python モジュールを使用して datalab をカスタマイズすることはできません。私の提案は、datalab とは無関係に実行したい python スクリプトの場合と同様に、datalab 以外の別のシステムに python script/cron ジョブをインストールすることです。

非常に長い補足事項: datalab 固有の gcp ライブラリを利用するために datalab コンテナ内でプログラムを実行する必要ある 場合は、次のサポートされていない (まだ創造的な) セットアップを提案します。ただし、ローカルの datalab コンテナとクラウドの datalab コンテナを実行する必要があります。

  1. datalab をローカルにインストールする
  2. Dockerfile.in次のファイルfile に次を追加します。

$REPO_DIR/containers/datalab/Dockerfile.in

# Add a custom script which calls a custom program (python file)
ADD mycustomprogram.sh /usr/local/bin/mycustomprogram.sh

# Allow the script to be executed
RUN chmod +x /usr/local/bin/mycustomprogram.sh
  1. カスタム スクリプトを指すようにENTRYPOINT変数を変更します。$REPO_DIR/containers/datalab/run.sh

これで、カスタム スクリプトが datalab ローカル コンテナ内で実行されました。

ローカル セットアップでは、ホスト マシンから任意の git クライアントを使用して、Google がホストする同じ git リポジトリに引き続きコミットできます。gcloud には、Google がホストする git リポジトリのクローンを作成するプロセスを案内する簡単なプロンプトがあります。

実行するだけgcloud initです。

サインインすると、Google がホストするリポジトリを使用するかどうかを尋ねる次のプロンプトが表示されます。

Do you want to use Google's source hosting (Y/n)?

重要: これは、Datalab のカスタマイズ オプションが追加されるまでの一時的な回避策です。カスタム python プログラムをインストールするために、ローカルの datalab インスタンスをデプロイするよりも、クラウドの Dockerfile.in ファイルを編集する方がはるかに望ましいと思います。

于 2016-03-10T14:23:58.927 に答える