問題タブ [alluxio]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark persist MEMOERY_AND_DISK vs. Tachyon
タキオンを理解したい。その下にある hdfs で Tachyon を使用することは、MEMORY_AND_DISK を使用して RDD を永続化することと多かれ少なかれ同等です。どちらの場合も、データ量がメモリをオーバーランすると、ハード ドライブに追いやられます。
jvm ガベージ コレクションによるパフォーマンスの違いがわかりました。私はオーバースピルの振る舞いについて質問しているだけです。
apache-spark - Spark ストリーミング ウィンドウをテーブルにインクリメンタルに格納する最も効率的な方法
スパークストリーミングを使用して、イベントのウィンドウを毎日のテーブルに挿入し、そのテーブルを常に最新の状態に保ちたいと考えています。
基本的に、私はこれをspark 1.4.1で持っています:
ただし、ログでわかるように、挿入ごとに以前のすべての部分が開かれていることがわかるため、これは時間の経過とともに遅くなります(寄木細工のフッターを読むためだと思います)
次のことを試しましたが、更新が遅くなります。
parquet.enable.summary-metadata false spark.sql.hive.convertMetastoreParquet.mergeSchema false
そのような場合、どのような設定が最適でしょうか?
(要件を満たすことができる限り、使用されるものにはかなり柔軟です)
apache-spark - 分散キャッシュと Tachyon の違いは何ですか?
分散キャッシュは、一般的なリクエストを格納し、迅速な検索を可能にする方法です。
Tachyonは、頻繁に読み取られるデータセットをディスクにロードすることを回避する、メモリ中心の分散ストレージ ファイル システムです。
これら2つの違いは何ですか?
scala - タキオンでスパークをテストする
指示に従って Tachyon と Spark をインストールしました。
http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html
しかし、初心者として、彼らが言ったように、ファイル「X」をTachyonファイルシステムに入れる方法がわかりません:
私がしたことは、既存のファイル (管理 UI で見つけたもの) を指すことでした。
count を実行すると、以下のエラーが発生しました。
パスが間違っていたと思います。2つの質問:
ファイルを Tachyon にコピーする方法は?
その FS の適切なパスは何ですか?
すみません、とても初心者です!!
更新 1
tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH
正しいパスかどうかはわかりません。ブラウザ経由でも取得できませんwget
これは私がファイルシステムブラウザで見たものです
scala - 単純な Tachyon の例が、GCE の underFSStorage 内で「名前を変更できませんでした」で失敗する
簡単な例を実行すると、このエラーが発生します。
パーミッションを変更して、別のディレクトリを使用してみました。
何か案は?
以下の私の答えは、実際にはこの問題を解決しません。これは、HDFS を UnderFS として使用する回避策にすぎません。
ここでの私の設定は、ローカルファイルシステムを使用しています:
alluxio - Tachyon は使用可能なメモリを認識していないようです
Tachyon が、構成済みのメモリが設定した使用可能なメモリを超えているというエラーを表示するかどうかを確認するためだけに:
そして、エラーなしで Web UI の割り当てを観察しました。
使用可能な RAM を超えたときに、一部の情報がディスクにプッシュされますか?
ディスク容量を超えるとどうなりますか? ファイル エラーやシステム障害が発生しましたか?
java - Tachyon でファイルの TTL を設定する方法
Tachyon 構成にキーtachyon.master.ttlchecker.interval.ms
(「期限切れの ttl 値を持つファイルを定期的に削除する時間間隔 (ミリ秒単位)」) があることがわかりましたが、全体を調べたところ、Tachyon ファイルの TTL 値を設定する方法が見つかりません。 .
Tachyon ファイル (できれば Java/scala プログラムから) の TTL をどのように設定しますか?
apache-spark - Tachyon が underFS に書き込むのを防ぐことは可能ですか?
Tachyon が underFS に書き込むのを防ぐことは可能ですか? データをメモリ ドライブだけに保存し、underFS への書き込みを省略したいと考えています。可能ですか、サポートされていますか?
よろしく、マイク
apache-spark - Spark-Tachyon 統合の系統ベースの耐障害性を有効にする方法は?
Tachyon を使用して RDD/Dataframe 共有を実装しようとしています。HDFS underFS では、書き込みは非同期 (バックグラウンドで HDFS へのレプリケーションが行われます) であるため、高速になるはずですが、私のテストでは、Tachyon と HDFS underFS の書き込みは 2 ~ 6 倍遅いことがわかりました。
このタキオンの論文から、次のことがわかります。
「Spark と MapReduce の統合で [系統ベースのフォールト トレランス] を構成可能にしました」
Spark が Tachyon で系統ベースの耐障害性を使用できるようにするにはどうすればよいですか?
注: Spark Dataframe メソッドdf.write.parquet
と RDD メソッドを使用rdd.saveAsObjectFile
して、データフレーム/RDD を Tachyon に保存しています。