Tachyon を使用して RDD/Dataframe 共有を実装しようとしています。HDFS underFS では、書き込みは非同期 (バックグラウンドで HDFS へのレプリケーションが行われます) であるため、高速になるはずですが、私のテストでは、Tachyon と HDFS underFS の書き込みは 2 ~ 6 倍遅いことがわかりました。
このタキオンの論文から、次のことがわかります。
「Spark と MapReduce の統合で [系統ベースのフォールト トレランス] を構成可能にしました」
Spark が Tachyon で系統ベースの耐障害性を使用できるようにするにはどうすればよいですか?
注: Spark Dataframe メソッドdf.write.parquet
と RDD メソッドを使用rdd.saveAsObjectFile
して、データフレーム/RDD を Tachyon に保存しています。