1
  1. Kmeans の各反復の後、Hadoop は一連のクラスターである出力を HDFS に保存し、次の反復でそれらをメモリにフェッチしますか?
  2. マッパーは観測を特定のクラスターに入れています。つまり、すべてのノードがすべてのデータを認識している必要があり、すべてのノードが特定のノードの観測セットを提供するように、Hadoop はデータではなくコンピューティングのみを分散します。

ありがとうございました

4

3 に答える 3

1

Hadoop/MR などの反復処理では、クラスタ ポイントが収束するまで同じジョブを何度も実行するため、オーバーヘッドが発生します。以下で説明するように、Hadoop は他のフレームワークと比較して 10 倍遅くなります。

K-Means のような反復処理は、 BSPを使用して効率的かつ簡単に実行できます。Apache HamaApache Giraphはどちらも BSP を実装しています。Apache Hama は BSP プリミティブを公開しますが、Apache Giraph は内部で BSP を使用し、主にグラフ処理に使用されますが、BSP プリミティブは公開しません。

Google は、大規模な反復処理のためのPregelに関する論文を発表し、基礎となるモデルとして BSP を使用しています。

于 2012-10-03T11:38:54.417 に答える
0
  1. はい、あるMRジョブから別のMRジョブに渡されるデータがある場合-HDFS(正確にはDFS)は唯一のオプションです。ここではクラスターの帯域幅を集約しているので、それほど問題にはなりません。
  2. K-Meanクラスタリングでは、すべてのデータをすべてのノードに送信する必要はありません。ここで説明する非常に効率的な並列実装があります。http://blog.data-miners.com/2008/02/mapreduce-and-k-means-clustering.html 簡単に言うと、行がすべてのセンターにある場合、ローカルで利用可能なグループからの距離を集計し、この少量を送信することです。一元化された処理のための情報の。
于 2012-09-26T16:48:05.590 に答える
0

Hadoop と MR は、実行可能ではありますが、KMeans などの反復アルゴリズムにはあまり適していません。Hadoop にマルコフ決定プロセスを実装する機会がありましたが、これは、入力と出力の両方で、各反復処理にディスク IO が含まれていたため、非常に苦労しました。それに加えて、イテレーション (MR ジョブ) の起動には、Hadoop クラスターで数十秒かかります。

その後、Hadoop で完全に動作する MR のようなフレームワークである Spark を試しました。クラスター内のすべてのコモディティ コンピューターのメモリを使用して、反復不変条件をディスクに繰り返し読み書きする代わりにキャッシュします。あなたはそれをチェックアウトしたいかもしれません:-)

于 2013-08-14T03:45:13.297 に答える