hadoop - HDFS での高スループットと低レイテンシ

Question

私自身の言葉で、HDFS における高スループットと低レイテンシの意味を定義しようとしましたが、次の定義を思いつきました。

HDFS は、データセット内の特定のレコードにアクセスするのではなく (低レイテンシー)、データセットのバッチにすばやくアクセスするように最適化されています (高スループット)。

それは理にかなっていますか？:)

ありがとう！

score 4 · Accepted Answer

私はこれでスイングします。

低遅延のデータアクセス: Enter キー (または [送信] ボタン) を押すと、結果はせいぜい数秒以内になると思います。データベースのクエリ時間は 1 秒未満である必要があります。データの高スループット: 何百万行ものデータをスキャンし、サブセットをカウントまたは合計したいと考えています。これが完了するまでに数分 (または複雑さによってはそれ以上) かかると思います。より多くのバッチスタイルのジョブを考えてみてください。

警告: これは実際には map/reduce の問題でもあります。M/R ジョブのセットアップと処理には、多少のオーバーヘッドがかかります。現在、低レイテンシデータアクセスに向けて取り組んでいるプロジェクトがいくつかあります。

また、HDFS はデータをブロックに格納し、それらを多数のノードに分散します。これは、最終的な回答を得るために必要なネットワークデータ転送が (ほとんど) 常にあることを意味し、スループットやその他のさまざまな要因に応じて、処理が少し「遅くなる」ことを意味します。

それが役立つことを願っています。:)

hadoop - HDFS での高スループットと低レイテンシ

2 に答える 2

Related

Reference