問題タブ [checkpointing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1109 参照

hadoop - チェックポイントは Apache Spark で何をしますか?

チェックポイントは Apache Spark に対して何を行い、RAM や CPU に影響を与えますか?

0 投票する
0 に答える
76 参照

c - 関数レベルのチェックポイント回復

チェックポイントについて読んでいます。私が今読んだ内容に基づいて、2 つの主要なチェックポイントがあります。

  • システム レベル チェックポイント (SLC) – 計算のコア ダンプ スタイルのスナップショット

  • アプリケーション レベル チェックポイント (ALC) – プログラムは自己チェックポイント機能と自動再起動機能を備えています

関数レベルでチェックポイント回復アルゴリズムを C で実装することに興味があります。これを「アプリケーションレベル」カテゴリ内で検討できるかどうか疑問に思っています。

次に、そのための利用可能なオープンソース ライブラリがあります。

例として、単純な追加関数をここに示します。

追加 (int a0、int a1、int b0、int b1、int* res0、int* res1)

アルゴリズム戦略は次のとおりです。

「保存」セクション(最初の行)を一般的な形式で記述する方法はありますか。関数が異なる引数の型を取得する場合はどうですか。

0 投票する
1 に答える
537 参照

python-2.7 - Tensorflow の変数スコープ

可変スコープを効果的に使用するのに問題があります。単純な再帰型ネットワークの重み、バイアス、および内部状態のいくつかの変数を定義したいと考えています。get_saver()デフォルトのグラフを定義した後、1 回呼び出します。次に、 を使用してサンプルのバッチを反復処理しtf.scanます。

私の希望はget_variable、op 内から取得された変数が呼び出しscan内で定義されたものと同じになるようにすることです。get_saverただし、このサンプル コードを実行すると、次のエラーが出力されます。

この例で私が間違っていることは何か分かりますか?

0 投票する
1 に答える
563 参照

python-2.7 - 復元された Tensorflow 変数からの値へのアクセス

tf.Saverweightbiasおよびstate変数が保存されている単純な再帰型ネットワークの例があります。

この例をオプションなしで実行すると、状態ベクトルがゼロを含むように初期化されますが、オプションを渡し、状態ベクトルの最後の値を呼び出しload_modelのフィードとして使用したいと考えています。session.run

私が目にするすべてのドキュメントは、変数から格納された値を取得するには呼び出す必要があると主張していsession.runますが、この場合、状態変数を初期化できるように値を取得したいと考えています。初期値を取得するためだけに別のグラフを作成する必要がありますか?

以下のコード例:

124 ~ 126 行目で、フィード ディクショナリの値を初期化しようとした方法についてコメントされた行に注意してください。それらのどれも機能しません。

0 投票する
3 に答える
2217 参照

apache-spark - スパーク ストリーミング チェックポイントの回復が非常に遅い

  • 目標: Kinesis からデータを読み取り、Spark ストリーミングを介して Parquet 形式で S3 にデータを保存します。
  • 状況: アプリケーションは最初は正常に動作し、1 時間のバッチを実行し、処理時間は平均で 30 分未満です。何らかの理由でアプリケーションがクラッシュし、チェックポイントから再起動しようとするとします。処理に永遠に時間がかかり、先に進みません。1 分のバッチ間隔で同じことをテストしようとしましたが、処理は正常に実行され、バッチが完了するまでに 1.2 分かかりました。チェックポイントから回復する場合、バッチごとに約 15 分かかります。
  • 注: 1 つのエグゼキューターを使用してチェックポイントに s3 を使用しています。エグゼキューターごとに 19g のメモリと 3 つのコアがあります。

スクリーンショットの添付:

最初の実行 - チェックポイント リカバリの前 チェックポイント前 - ストリーミング ページ

チェックポイント前 - ジョブページ

チェックポイント前 - ジョブ ページ2

チェックポイントから回復しようとしています: チェックポイント後 - ストリーミング ページ チェックポイント後 - ジョブページ

Config.scala

S3Basin.scala

Kinesis.scala

DAG DAG

ここに画像の説明を入力

0 投票する
1 に答える
875 参照

apache-spark - スパークチェックポイント

次のようなRDDを作成しました。

私の質問は、チェックポイントディレクトリからデータを読み取る方法です