Windows Azureの .NET クラウド環境で実行中の分散計算を簡素化するためのフレームワークを開発することを考えています。
Azure は現在 (おそらくリリース時までには)、クラウドでの分散クエリの単純な実行にはまったく適していません (詳細)。私にとって簡単なのは、クエリを記述できるDryadLINQのようなものです。
var results = from c in collection
where IsLegal(c.Key)
select new
{
Key = Hash(c.Key),
Result = RunModel(c.Value);
};
クラスター内の複数のマシンでリモートで実行します。面倒な展開、ストレージ、または構成はありません。
この件に関する追加情報 (特にスケジューリングと DAG の最適化) を確認するために、どのリソース、論文、またはオープン ソース プロジェクトをアドバイスできますか?
これまで、Hadoop (Amazon Elastic Map Reduce で使用) と DryadLINQ について掘り下げてきました。明らかに、これにはグーグルが含まれます。