問題タブ [mlops]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

72 問題

0 投票する

0 に答える

135 参照

python - MLFlow を使用して PyTorch モデルを保存するときにエラーが属性 Net を取得できない

one-click-mlflowを使用して MLFlow をインストールした後、ユーザーガイドにある既定のコマンドを使用して pytorch モデルを保存します。コマンドは次のとおりです。

保存されたニューラルネットワークは非常に単純です。これは基本的に、Xavier の初期化と双曲線正接を活性化関数として持つ 2 層のニューラルネットワークです。

Jupyter Notebook では、すべてが正常に実行されています。メトリクスやその他のアーティファクトをログに記録できますが、モデルを保存すると次のエラーメッセージが表示されます。

誰かが私に何が悪いのか説明できますか?

2021-10-13T07:44:49.723

0 投票する

3 に答える

381 参照

azure - Azure ML リリースのバグ AZUREML_COMPUTE_USE COMMON_RUNTIME

2021 年 10 月 13 日、Azure ML プラットフォームのアプリケーションで、パイプラインステップで失敗を引き起こすこの新しいエラーが発生します - python モジュールのインポートエラー -警告スタック <- パイプラインランタイムエラーにつながる警告

false に設定する必要がありました。なぜ失敗するのですか？オプトアウトした場合の正確な (そして長期的な) 結果は何ですか? また、Azure ML ユーザーの皆様、適切に展開されたと思いますか?

azure machine-learning azure-devops azureml mlops

2021-10-13T11:03:15.570

0 投票する

0 に答える

84 参照

amazon-s3 - minio STS で生成された acces_key、secret_key、および session_token を使用して minio S3 に接続するように mlflow 追跡サービスのアーティファクトストアを構成する方法

Minio は LDAP で構成されており、STS API を使用して AssumeRoleWithLDAPIdentity でユーザーの資格情報を生成しています (参照)
上記の値から、変数 AWS_ACCESS_KEY、AWS_SECRET_KEY、AWS_SESSION_TOKEN を設定しています (参照)

モデルを mlflow にプッシュして minio アーティファクトに保存しようとするとエラーが発生します

amazon-s3 minio mlflow mlops

2021-10-14T15:38:30.190

0 投票する

1 に答える

349 参照

python - Vertex AI - ModelDeployOp(...) に「google_cloud_pipeline_components.remote」という名前のモジュールがありません

モデルをトレーニングして Vertex AI エンドポイントにデプロイする単純なパイプラインを作成しました。google_cloud_pipeline_components.aiplatform.ModelDeployOp()コンポーネントを使用してモデルをデプロイしようとすると、エラーが返されることに気付きました。

google_cloud_pipeline_components.aiplatformのドキュメントを見ると、ModelDeployOp() の 2 つのエントリが見つかります。1 つは元のメソッドをコンポーネントに変換した方法を示し、もう 1 つは ModelDeployOp() メソッドの使用方法に関するドキュメントです。

彼らがメソッドをどのように変換するかを見ると、次の情報が見つかります: ...

gcp logging が返されたという私のエラーを見ている間：

コンテナ自体の内部の問題のようです。

だから...私の質問は、これがライブラリのバグであると仮定するのが正しいかどうかだと思いますか? 回避策はありますか?

前もって感謝します。

python google-cloud-platform google-cloud-vertex-ai mlops

2021-10-21T09:21:22.480

0 投票する

1 に答える

122 参照

python - GKE for DASK でスケジューラメモリを増やす方法

プリフェクトとダスクを組み合わせて、GCP に kubernetes クラスターをデプロイしました。通常のシナリオではジョブは正常に実行されますが、データの 2 倍のスケーリングに失敗しています。これまでのところ、メモリ使用量が多いためにスケジューラが停止することに絞り込みました。 Dask スケジューラメモリメモリ使用量が 2GB に達するとすぐに、「ハートビートが検出されませんでした」というエラーでジョブが失敗します。

ワーカーメモリと CPU を設定する別のビルド Python ファイルが利用可能です。ゲートウェイオプションを取得してワーカーメモリをセットアップする dask-gateway パッケージがあります。

dask-scheduler のメモリ割り当てをどこでどのように増やすことができるかわかりません。

python google-kubernetes-engine dask prefect mlops

2021-11-15T10:29:54.780

1 2 3 4 5 6 7 8 9 10

問題タブ [mlops]

python - MLFlow を使用して PyTorch モデルを保存するときにエラーが属性 Net を取得できない

azure - Azure ML リリースのバグ AZUREML_COMPUTE_USE COMMON_RUNTIME

amazon-s3 - minio STS で生成された acces_key、secret_key、および session_token を使用して minio S3 に接続するように mlflow 追跡サービスのアーティファクト ストアを構成する方法

python - Vertex AI - ModelDeployOp(...) に「google_cloud_pipeline_components.remote」という名前のモジュールがありません

python - GKE for DASK でスケジューラ メモリを増やす方法

Reference

amazon-s3 - minio STS で生成された acces_key、secret_key、および session_token を使用して minio S3 に接続するように mlflow 追跡サービスのアーティファクトストアを構成する方法

python - GKE for DASK でスケジューラメモリを増やす方法