問題タブ [distributed-filesystem]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1102 参照

hadoop - HDFS あり/なしの Alluxio

アンダー ストレージ分散ファイル システムとして HDFS を使用したクラスターを使用していますが、高速で柔軟なalluxioについて読んだところです。だから、私の質問は次のとおりです: HDFS で Alluxio を使用する必要がありますか、それとも HDFS の代わりに Alluxio を使用する必要がありますか? (私は彼らのサイトで、ストレージファイルシステムの下の共有ストレージがネットワークファイルシステム (NFS) になる可能性があることを確認しました。したがって、HDFS は必要ないと思います。間違いがあれば訂正してください)。

どちらのモードのパフォーマンスが優れているか: HDFS with Alluxio または Alluxio stanalone (スタンドアロンという用語は、ローカルではなくクラスター内で単独で使用されることを意味します)。

0 投票する
1 に答える
174 参照

apache-spark - 分散ファイル システムからの読み取りをスパークしますか?

S3 や HDFS などの分散ファイル システムにデータ (ユーザー イベント) が保存されているとします。ユーザーイベントは、日付ごとにディレクトリに保存されます。

ケース 1 Spark ジョブが 1 日分のデータを読み取る必要があるとします。私の理解では、単一のスパークジョブがその日のディレクトリからデータを読み取り、ブロックごとにデータを読み取り、計算のためにクラスターをスパークするデータを提供します。そのブロックごとの読み取りプロセスはシーケンシャルになりますか?

ケース 2 Spark ジョブが 1 日以上 (たとえば 2 日間) データを読み取る必要があると考えてください。別々のディレクトリから読み取ったデータを並行して実行できるように、2 つの別々の spark プロセス (またはスレッド) を開始する必要がありますか?