r - Rを使用する場合、HadoopとCondorのどちらを優先する必要がありますか？

Question

大学のコンピューターグリッド上の複数のコンピューターに作品を送信する方法を探しています。

現在、Condorを実行しており、Hadoopも提供しています。

したがって、私の質問は、プロジェクトのためにRとHadoopまたはConderとのインターフェースをとるべきかということです。

議論のために、驚異的並列タスクについて話していると仮定しましょう。

ps： CRANタスクビューで説明されているリソースを見てきました。

score 6 · Accepted Answer

あなたは両方を行うことができます。

データセットにはHDFSを使用し、ジョブスケジューリングにはCondorを使用できます。Condorを使用してエグゼキュータをマシンに配置し、HDFS + Hadoops Map-Reduce機能を使用してデータを処理します（問題がmap-reduce mappableであると想定）。次に、ジョブに最も適切なツールを使用します。Condorはジョブスケジューラであるため、Hadoopよりもうまく機能します。また、HadoopのHDFSおよびMRフレームワークは、Condorにはないものです（ただし、Condorで実行されているジョブを使用するのに非常に役立ちます）。

私は個人的に、コンドルジョブとして個別に実行されるジョブ間でデータを共有するためのHDFSを持っていることを確認します。特に、共有コンピューティングリソースの信頼性が100％でなく、自由に行き来できる大学環境では、このタイプのセットアップにおけるCondorの復元力により、作業が非常に簡単になります。

r - Rを使用する場合、HadoopとCondorのどちらを優先する必要がありますか？

1 に答える 1

Related

Reference