問題タブ [mlops]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
135 参照

python - MLFlow を使用して PyTorch モデルを保存するときにエラーが属性 Net を取得できない

one-click-mlflowを使用して MLFlow をインストールした後、ユーザー ガイドにある既定のコマンドを使用して pytorch モデルを保存します。コマンドは次のとおりです。

保存されたニューラル ネットワークは非常に単純です。これは基本的に、Xavier の初期化と双曲線正接を活性化関数として持つ 2 層のニューラル ネットワークです。

Jupyter Notebook では、すべてが正常に実行されています。メトリクスやその他のアーティファクトをログに記録できますが、モデルを保存すると次のエラー メッセージが表示されます。

誰かが私に何が悪いのか説明できますか?

0 投票する
3 に答える
381 参照

azure - Azure ML リリースのバグ AZUREML_COMPUTE_USE COMMON_RUNTIME

2021 年 10 月 13 日、Azure ML プラットフォームのアプリケーションで、パイプライン ステップで失敗を引き起こすこの新しいエラーが発生します - python モジュールのインポート エラー -警告スタック <- パイプライン ランタイム エラーにつながる警告

false に設定する必要がありました。なぜ失敗するのですか?オプトアウトした場合の正確な (そして長期的な) 結果は何ですか? また、Azure ML ユーザーの皆様、適切に展開されたと思いますか?

0 投票する
0 に答える
84 参照

amazon-s3 - minio STS で生成された acces_key、secret_key、および session_token を使用して minio S3 に接続するように mlflow 追跡サービスのアーティファクト ストアを構成する方法

  • Minio は LDAP で構成されており、STS API を使用して AssumeRoleWithLDAPIdentity でユーザーの資格情報を生成しています (参照)

  • 上記の値から、変数 AWS_ACCESS_KEY、AWS_SECRET_KEY、AWS_SESSION_TOKEN を設定しています (参照)

モデルを mlflow にプッシュして minio アーティファクトに保存しようとするとエラーが発生します

0 投票する
1 に答える
349 参照

python - Vertex AI - ModelDeployOp(...) に「google_cloud_pipeline_components.remote」という名前のモジュールがありません

モデルをトレーニングして Vertex AI エンドポイントにデプロイする単純なパイプラインを作成しました。google_cloud_pipeline_components.aiplatform.ModelDeployOp()コンポーネントを使用してモデルをデプロイしようとすると、エラーが返されることに気付き ました。

google_cloud_pipeline_components.aiplatformのドキュメントを見ると、ModelDeployOp() の 2 つのエントリが見つかります。1 つは元のメソッドをコンポーネントに変換した方法を示し、もう 1 つは ModelDeployOp() メソッドの使用方法に関するドキュメントです。

彼らがメソッドをどのように変換するかを見ると、次の情報が見つかります: ...

gcp logging が返されたという私のエラーを見ている間:

コンテナ自体の内部の問題のようです。

だから...私の質問は、これがライブラリのバグであると仮定するのが正しいかどうかだと思いますか? 回避策はありますか?

前もって感謝します。

0 投票する
1 に答える
122 参照

python - GKE for DASK でスケジューラ メモリを増やす方法

プリフェクトとダスクを組み合わせて、GCP に kubernetes クラスターをデプロイしました。通常のシナリオではジョブは正常に実行されますが、データの 2 倍のスケーリングに失敗しています。これまでのところ、メモリ使用量が多いためにスケジューラが停止することに絞り込みました。 Dask スケジューラ メモリ メモリ使用量が 2GB に達するとすぐに、「ハートビートが検出されませんでした」というエラーでジョブが失敗します。

ワーカー メモリと CPU を設定する別のビルド Python ファイルが利用可能です。ゲートウェイ オプションを取得してワーカー メモリをセットアップする dask-gateway パッケージがあります。

dask-scheduler のメモリ割り当てをどこでどのように増やすことができるかわかりません。