1

私は非常に単純な分散コンピューティング プラットフォーム (Map/Reduce パラダイムに基づく) を作成しました。現在、いくつかのデモとショーケースを作成中です。私は非常に小さなチームを持っており、どのデモを最初に作成するかを優先する必要があります。

優先順位を付けるには、約 70% が分散コンピューティングの関連性があり、一般的で重要なユース ケースであり、30% が記述しやすいというように、デモを並べ替える必要があります。

これまでのところ、次のように注文しました。

  1. モンテカルロで円周率を発見する
  2. モンテカルロによる数値積分
  3. 大行列乗算 (密行列)
  4. 線形回帰
  5. 大行列反転
  6. 複数の回帰
  7. 並べ替え
  8. クラスタリング (K-Means)
  9. クラスタリング (階層的)

数字の 1 がリストにあるのは、書くのに 10 分かかったからです。ただし、まったく役に立ちません (よくわかりませんが、円周率の桁数をもっと見つけようとしている人はあまりいないと思います)。

私のプラットフォームの性質上、もちろん恥ずかしいほど並列であり、I/O バウンドやリデュースドミネートではないものでより輝きます。

私のリストをどのように変更しますか? それに何を追加しますか?並べ替えは企業の世界でまったく役に立ちますか?それとも、分散コンピューティング プラットフォームのベンチマークのためだけのものですか?

4

2 に答える 2

4

あなたのリストは、並列コンピューティングと分散コンピューティングを区別していないことを示唆しています。これは必ずしも間違っているわけではありませんが、分散コンピューティング プラットフォームの優れたデモンストレーションを探している人は、項目 2 から 5 のような並列計算が実行されているのを見て、熱狂するかもしれません。

並べ替えは、大企業、小規模企業、机の引き出しの中、Google の世界全体など、データがあるあらゆる場所で確かに役立ちます。検索も同様で、リストから除外されているのは驚くべきことです。私がすぐに思いつくもう 1 つの省略は、あらゆる種類のデータ融合であり、大規模なデータセットをマージして、データセットから個別に抽出できる情報を超えて、それらの交差点から情報を取得します。

于 2012-08-21T07:06:43.557 に答える
2

分散コンピューティングと HPC を混在させているという点で、Mark に次ぐ評価です。以下は、各トピックに関するコメントです。

(1) できる限り多くの Pi の桁数を計算しようとする人がいますが、モンテカルロ アルゴリズムはそこではまったく役に立ちません。その精度は試行回数の逆平方根に比例するため、10 進数をもう 1 桁取得するためにの精度では、おおよそ 100 倍の試行が必要になります。他にもアルゴリズムがあります - Map/Reduce を使用してそれらのいくつかを実装できるかどうかを確認してください。

(2) これは問題ありませんが、めったに使用されません - (1) と同じ精度の問題です。

(5) 主に数値的な不安定性のために、純粋な逆行列はめったに実行されません。代わりに、密集した線形方程式系を解くのはどうですか?

今日の M/R 処理の主な用途の 1 つ、つまりグラフ処理(ソーシャルおよびその他のネットワーク/フロー分析)が欠けていると思います。また、遺伝的アルゴリズムなど、より一般的な最適化問題も良いかもしれません。

于 2012-08-21T12:00:02.830 に答える