問題タブ [distributed-filesystem]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

52 問題

0 投票する

1 に答える

1102 参照

hadoop - HDFS あり/なしの Alluxio

アンダーストレージ分散ファイルシステムとして HDFS を使用したクラスターを使用していますが、高速で柔軟なalluxioについて読んだところです。だから、私の質問は次のとおりです: HDFS で Alluxio を使用する必要がありますか、それとも HDFS の代わりに Alluxio を使用する必要がありますか? (私は彼らのサイトで、ストレージファイルシステムの下の共有ストレージがネットワークファイルシステム (NFS) になる可能性があることを確認しました。したがって、HDFS は必要ないと思います。間違いがあれば訂正してください)。

どちらのモードのパフォーマンスが優れているか: HDFS with Alluxio または Alluxio stanalone (スタンドアロンという用語は、ローカルではなくクラスター内で単独で使用されることを意味します)。

2018-08-30T13:49:12.980

0 投票する

1 に答える

174 参照

apache-spark - 分散ファイルシステムからの読み取りをスパークしますか?

S3 や HDFS などの分散ファイルシステムにデータ (ユーザーイベント) が保存されているとします。ユーザーイベントは、日付ごとにディレクトリに保存されます。

ケース 1 Spark ジョブが 1 日分のデータを読み取る必要があるとします。私の理解では、単一のスパークジョブがその日のディレクトリからデータを読み取り、ブロックごとにデータを読み取り、計算のためにクラスターをスパークするデータを提供します。そのブロックごとの読み取りプロセスはシーケンシャルになりますか?

ケース 2 Spark ジョブが 1 日以上 (たとえば 2 日間) データを読み取る必要があると考えてください。別々のディレクトリから読み取ったデータを並行して実行できるように、2 つの別々の spark プロセス (またはスレッド) を開始する必要がありますか?

apache-spark amazon-s3 distributed-filesystem

2020-01-12T11:14:12.737

1 2 3 4 5 6 7 8 9 10

問題タブ [distributed-filesystem]

hadoop - HDFS あり/なしの Alluxio

apache-spark - 分散ファイル システムからの読み取りをスパークしますか?

Reference

apache-spark - 分散ファイルシステムからの読み取りをスパークしますか?