hadoop - BOINC と Hadoop/Spark/etc の違い

Question

BOINC https://en.wikipedia.org/wiki/Berkeley_Open_Infrastructure_for_Network_Computingの違いは何ですか

vs. 一般的な Hadoop/Spark/etc. ビッグデータフレームワーク? それらはすべて分散コンピューティングフレームワークのようです。相違点や特に BOINC について読むことができる場所はありますか?

EU の Large Hadron Collider は BOINC を使用しているようですが、Hadoop を使用しないのはなぜですか?

ありがとう。

score 2 · Accepted Answer

BOINC は、コンピューターの未使用の CPU と GPU サイクルを使用して科学計算を実行できるソフトウェアです。

BOINC は厳密には、未使用の計算サイクルを使用してグリッドコンピューティングを可能にする単一のアプリケーションです。

Apache Hadoop は、汎用ハードウェアから構築されたコンピュータークラスター上で非常に大規模なデータセットを分散ストレージおよび分散処理するためのオープンソースソフトウェアフレームワークです。Hadoop のすべてのモジュールは、ハードウェア障害はよくあることであり、フレームワークによって自動的に処理される必要があるという基本的な前提に基づいて設計されています。

Apache Hadoop のコアは、Hadoop 分散ファイルシステム (HDFS) と呼ばれるストレージ部分と、MapReduce と呼ばれる処理部分で構成されます。

（フレームワークに強調が追加され、それは二重の機能です）

ここでは、Hadoop がストレージとコンピューティングの両方の機能を備えたフレームワーク (エコシステムとも呼ばれます) であることがわかります。Cloudera や Hortonworks などの Hadoop ベンダーは、追加機能 (Hive、Hbase、Pig、Spark など) といくつかのセキュリティ/監査ツールをバンドルしています。

さらに、ハードウェア障害は、これら 2 つのクラスターによって異なる方法で処理されます。BOINC ノードが停止した場合、耐障害性はありません。それらのリソースは失われます。Hadoop の場合、データが複製され、タスクが一定回数再実行されてから最終的に失敗しますが、フレームワークに組み込まれたログサービスが実行されている限り、これらの手順は追跡可能です。

EU の Large Hadron Collider は BOINC を使用しているようですが、Hadoop を使用しないのはなぜですか?

BOINC は、世界中の誰もがクラスターに参加するためにインストールできるソフトウェアを提供するため、実質的にどこからでも無料で広範囲のコンピューティングパワーを得ることができます。

内部で Hadoop を使用して一部のストレージを処理し、おそらく Spark を使用して追加のコンピューティングを実行している可能性がありますが、コモディティハードウェアをまとめて購入し、そのクラスターを構築/維持するには法外なコストがかかるようです。

hadoop - BOINC と Hadoop/Spark/etc の違い

2 に答える 2

Related

Reference