問題タブ [checkpointing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - チェックポイントは Apache Spark で何をしますか?
チェックポイントは Apache Spark に対して何を行い、RAM や CPU に影響を与えますか?
c - 関数レベルのチェックポイント回復
チェックポイントについて読んでいます。私が今読んだ内容に基づいて、2 つの主要なチェックポイントがあります。
システム レベル チェックポイント (SLC) – 計算のコア ダンプ スタイルのスナップショット
アプリケーション レベル チェックポイント (ALC) – プログラムは自己チェックポイント機能と自動再起動機能を備えています
関数レベルでチェックポイント回復アルゴリズムを C で実装することに興味があります。これを「アプリケーションレベル」カテゴリ内で検討できるかどうか疑問に思っています。
次に、そのための利用可能なオープンソース ライブラリがあります。
例として、単純な追加関数をここに示します。
追加 (int a0、int a1、int b0、int b1、int* res0、int* res1)
アルゴリズム戦略は次のとおりです。
「保存」セクション(最初の行)を一般的な形式で記述する方法はありますか。関数が異なる引数の型を取得する場合はどうですか。
python-2.7 - Tensorflow の変数スコープ
可変スコープを効果的に使用するのに問題があります。単純な再帰型ネットワークの重み、バイアス、および内部状態のいくつかの変数を定義したいと考えています。get_saver()
デフォルトのグラフを定義した後、1 回呼び出します。次に、 を使用してサンプルのバッチを反復処理しtf.scan
ます。
私の希望はget_variable
、op 内から取得された変数が呼び出しscan
内で定義されたものと同じになるようにすることです。get_saver
ただし、このサンプル コードを実行すると、次のエラーが出力されます。
この例で私が間違っていることは何か分かりますか?
python-2.7 - 復元された Tensorflow 変数からの値へのアクセス
tf.Saver
とweight
、bias
およびstate
変数が保存されている単純な再帰型ネットワークの例があります。
この例をオプションなしで実行すると、状態ベクトルがゼロを含むように初期化されますが、オプションを渡し、状態ベクトルの最後の値を呼び出しload_model
のフィードとして使用したいと考えています。session.run
私が目にするすべてのドキュメントは、変数から格納された値を取得するには呼び出す必要があると主張していsession.run
ますが、この場合、状態変数を初期化できるように値を取得したいと考えています。初期値を取得するためだけに別のグラフを作成する必要がありますか?
以下のコード例:
124 ~ 126 行目で、フィード ディクショナリの値を初期化しようとした方法についてコメントされた行に注意してください。それらのどれも機能しません。
apache-spark - スパーク ストリーミング チェックポイントの回復が非常に遅い
- 目標: Kinesis からデータを読み取り、Spark ストリーミングを介して Parquet 形式で S3 にデータを保存します。
- 状況: アプリケーションは最初は正常に動作し、1 時間のバッチを実行し、処理時間は平均で 30 分未満です。何らかの理由でアプリケーションがクラッシュし、チェックポイントから再起動しようとするとします。処理に永遠に時間がかかり、先に進みません。1 分のバッチ間隔で同じことをテストしようとしましたが、処理は正常に実行され、バッチが完了するまでに 1.2 分かかりました。チェックポイントから回復する場合、バッチごとに約 15 分かかります。
- 注: 1 つのエグゼキューターを使用してチェックポイントに s3 を使用しています。エグゼキューターごとに 19g のメモリと 3 つのコアがあります。
スクリーンショットの添付:
Config.scala
S3Basin.scala
Kinesis.scala
apache-spark - スパークチェックポイント
次のようなRDDを作成しました。
私の質問は、チェックポイントディレクトリからデータを読み取る方法です