0

私には仕事があります:逆インデックスの現在の実装をスピードアップします。私の意見では、クラウドで実行するのが最善の方法です。

  1. 入力テキストをいくつかの部分に分割します (または、いくつかの異なるテキスト ファイルを取得します)。
  2. テキストをノードに送信する
  3. 異なる入力データに対して各ノードでアルゴリズムを実行する
  4. 結果を収集してマージする

私の質問は、それを実装する最も簡単な方法は何ですか?

私の現在のアイデアは次のとおりです。

  • Worker ロールを使用する Windows Azure - 異なるデータをノードに送信し、後でそれらをマージすることは可能ですか?
  • Windows Azure と HPC スケジューラ - このようなタスクには強力すぎませんか? 構成とコストが心配です (新しいノード = 新しいワーカー ロール?)
  • Amazon や Google などの他のクラウドを使用します。C# でコーディングしたいのですが、Microsoft テクノロジに精通しているため、少し恐れています。

この目標をどのように達成するかアドバイスをお願いします。

4

1 に答える 1

1

これはMapReduceの場合です。

実際、HadoopはNutch (Inverted Index を実行する)のニーズから作成されました。

次のいずれかを使用できます。

a) Amazon の Elastic MapReduce

また

b) HDInsights on Azure にサインアップする

他のプロバイダーがあります ( picloudは頭に浮かぶものです)

于 2013-01-11T23:31:57.237 に答える