私自身の言葉で、HDFS における高スループットと低レイテンシの意味を定義しようとしましたが、次の定義を思いつきました。
HDFS は、データ セット内の特定のレコードにアクセスするのではなく (低レイテンシー)、データ セットのバッチにすばやくアクセスするように最適化されています (高スループット)。
それは理にかなっていますか?:)
ありがとう!
私自身の言葉で、HDFS における高スループットと低レイテンシの意味を定義しようとしましたが、次の定義を思いつきました。
HDFS は、データ セット内の特定のレコードにアクセスするのではなく (低レイテンシー)、データ セットのバッチにすばやくアクセスするように最適化されています (高スループット)。
それは理にかなっていますか?:)
ありがとう!
私はこれでスイングします。
低遅延のデータ アクセス: Enter キー (または [送信] ボタン) を押すと、結果はせいぜい数秒以内になると思います。データベースのクエリ時間は 1 秒未満である必要があります。データの高スループット: 何百万行ものデータをスキャンし、サブセットをカウントまたは合計したいと考えています。これが完了するまでに数分 (または複雑さによってはそれ以上) かかると思います。より多くのバッチ スタイルのジョブを考えてみてください。
警告: これは実際には map/reduce の問題でもあります。M/R ジョブのセットアップと処理には、多少のオーバーヘッドがかかります。現在、低レイテンシ データ アクセスに向けて取り組んでいるプロジェクトがいくつかあります。
また、HDFS はデータをブロックに格納し、それらを多数のノードに分散します。これは、最終的な回答を得るために必要なネットワーク データ転送が (ほとんど) 常にあることを意味し、スループットやその他のさまざまな要因に応じて、処理が少し「遅くなる」ことを意味します。
それが役立つことを願っています。:)