問題タブ [checkpoint]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
caching - 永続化/キャッシュされた RDD の Spark RDD チェックポイントが DAG を 2 回実行している
次のようなコードを実行すると:
Yarn のステージを見てみると、Spark が DAG 計算を 2 回実行していることに気付きました。1 回目は RDD を具体化してそれをキャッシュする個別 + カウントで、次に完全に 2 回目でチェックポイントされたコピーを作成しました。
RDD は既に実体化され、キャッシュされているのに、なぜチェックポイントは単純にこれを利用して、キャッシュされたパーティションをディスクに保存しないのでしょうか?
Sparkにこれを利用させ、操作を1回だけ実行させ、チェックポイントで物事をコピーする既存の方法(何らかの構成設定またはコード変更)はありますか?
代わりに、2 回「実体化」する必要がありますか?
これを機能リクエストにするために、Apache Spark Jira チケットを作成しました: https://issues.apache.org/jira/browse/SPARK-8666
neo4j - Neo4j バージョニング グラフ/ノード/関係、チェックポイント
グラフのスナップショット/バージョン (または特定のノードのバージョンのみ) を保持したいと考えています。任意のバージョンに切り替えたいと思います (git リポジトリのように)。
GraphAware の ChangeFeed を使用してみましたが、目的は解決しません。
この github プロジェクトも見つかりました: https://github.com/dmontag/neo4j-versioning。しかし、それは時代遅れです。
これを達成するのに役立つプラグインはありますか?
r - チェックポイント パッケージなしで RRO を使用することは可能ですか?
Revolution R Open (RRO) はcheckpoint
、パッケージ参照の再現性を向上させるためにパッケージと共に配布されます。ただし、一部のユーザーは、再現性を気にせず、RRO が提供するパフォーマンスの向上を本当に気にかけている場合があります。
checkpoint
パッケージとその機能なしで RRO を使用することは可能ですか?
linux - arm と x86 間の移行プロセス
アームベースのシステムから x86 ベースのシステムにプロセスを移行できるかどうかを知っている人はいますか? どちらもLinuxを実行していますが、問題はARMにあり、プロセスの状態はx86のものとは異なります。
linux - 何百万ものファイルのコマンドをループしながら、スーパーコンピューターのジョブを再開しますか?
有名な #PBS を使用しているスーパーコンピューターを使用しています。私のウォールタイムは 48 時間ですが、これは 100 万個のファイルを処理するのに十分ではありません。
私のファイル名は次のようなものです:
可能な文字はすべて「ADEFGHIKLMNPQRSTVW Y」です。
次のようなスクリプトを使用したい:
しかし、壁の時間には再起動を使用する必要があります。数字を使用するとカウンターを配置できますが、特定の文字を使用すると、このチェックポイントから開始する最後のファイルを書き込む方法がわかりません。お気に入り :
php - Check Point による自動シンプル HTML DOM
こんばんは、
できるかどうかわからないので質問したかったのです。Simple HTML DOM で作成したスクレイピング プログラムがあります。
このプログラムは、さまざまな Web サイトからデータを抽出します。
だから私の質問は:
プログラムが失敗した場合に自動再起動できるようにプログラムを自動化することは可能ですか?
そして私はさらに進みます...
たとえば、特定のポイントからプログラムを再起動します。
プログラムが 2 の処理に失敗した場合は、チェックポイントから作業を再開したいと考えています。
不可能な場合は、その旨を伝えて質問を削除してください。問題ない。
どうもありがとう。
apache-spark - スパーク ストリーミングでチェックポイントが機能しない
Spark ストリーミング アプリケーションによって監視される HDFS パスにデータ ファイルを配置しています。そして、スパーク ストリーミング アプリケーションがデータを kafka トピックに送信します。ストリーミング アプリケーションを途中で停止し、停止したところから開始するようにします。しかし、入力データファイル全体を再度処理しています。したがって、チェックポイントが適切に使用されていないと思います。Spark 1.4.1 バージョンを使用しています。ストリーミング アプリケーションが失敗/停止した時点から開始するにはどうすればよいですか? 前もって感謝します。