apache-spark - Spark-Tachyon 統合の系統ベースの耐障害性を有効にする方法は?

Question

Tachyon を使用して RDD/Dataframe 共有を実装しようとしています。HDFS underFS では、書き込みは非同期 (バックグラウンドで HDFS へのレプリケーションが行われます) であるため、高速になるはずですが、私のテストでは、Tachyon と HDFS underFS の書き込みは 2 ～ 6 倍遅いことがわかりました。

このタキオンの論文から、次のことがわかります。

「Spark と MapReduce の統合で [系統ベースのフォールトトレランス] を構成可能にしました」

Spark が Tachyon で系統ベースの耐障害性を使用できるようにするにはどうすればよいですか?

注: Spark Dataframe メソッドdf.write.parquetと RDD メソッドを使用rdd.saveAsObjectFileして、データフレーム/RDD を Tachyon に保存しています。

score 0 · Accepted Answer

tachyon.user.lineage.enabledtrue に設定し、好みに応じて他の系列設定を調整する必要があります。最も興味深い設定の一部 ( Master Configuration docsから):

tachyon.master.lineage.checkpoint.interval.ms- Tachyon のチェックポイントスケジューリング間の間隔 (ミリ秒単位)。

tachyon.master.lineage.checkpoint.class- リネージ出力ファイルのチェックポイント戦略のクラス名。デフォルトの戦略は、最後に完了した系統、つまり出力ファイルが完了した系統をチェックポイントすることです。

tachyon.master.lineage.recompute.interval.ms- Tachyon の再計算実行の間隔 (ミリ秒単位)。エグゼキューターは、リネージによって追跡されたすべての失われたファイルをスキャンし、対応するジョブを再実行します。10分ごと。

詳細については、系統 API ドキュメントを参照してください。

apache-spark - Spark-Tachyon 統合の系統ベースの耐障害性を有効にする方法は?

1 に答える 1

Related

Reference