問題タブ [apache-beam]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
221 参照

google-cloud-ml - KeyError: u"FALSE [「ラベル ID の抽出」の実行中]"

私は cloudml-samples で花のチュートリアル コードを使用して、一連のレストランの写真にマルチラベル分類を実装しようとしています。

それに応じて dict.txt と入力を更新しました。サンプル行は次のとおりです。


dict.txt


eval_set.csv


前処理ジョブが正常に実行を開始した後、ジョブが失敗するまで、この特定のエラーが発生し続けることがわかります。

ジョブログのスナップショット


ジョブ ログ - KeyError: u"FALSE [「ラベル ID の抽出」を実行中]"


ジョブ ログ - ワークフローの失敗

0 投票する
1 に答える
312 参照

google-cloud-dataflow - 副出力で同じ変換を使用して Dataflow パイプラインを構築する

シリアル化エラー、検証エラー、ストレージへの書き込み時の実行時エラーなど、いくつかのステップでデータにさまざまなエラーが発生する可能性があるストリーミング パイプラインを構築しています。エラーが発生するたびに、データを副出力に送信します。エラー処理ロジックは、これらのサイド出力で同じです。後処理/レポート用に共通のエラー ストレージにデータを書き込みます。

パイプラインを構築するには、少なくとも 3 つのオプションがあります。(以下の疑似コード)

  1. 変換の新しいインスタンスで各副出力を処理します。

    /li>
  2. 変換の 1 つのインスタンスで各副出力を処理します。

    /li>
  3. これらの副出力からの出力を平坦化し、単一の変換を使用してすべてのエラーを処理します。

    /li>

スケーラビリティとパフォーマンスを向上させるために、どちらを使用するかについてのアドバイスはありますか? それとも関係ないのでしょうか?