大学のコンピューターグリッド上の複数のコンピューターに作品を送信する方法を探しています。
現在、Condorを実行しており、Hadoopも提供しています。
したがって、私の質問は、プロジェクトのためにRとHadoopまたはConderとのインターフェースをとるべきかということです。
議論のために、驚異的並列タスクについて話していると仮定しましょう。
ps: CRANタスクビューで説明されているリソースを見てきました。
大学のコンピューターグリッド上の複数のコンピューターに作品を送信する方法を探しています。
現在、Condorを実行しており、Hadoopも提供しています。
したがって、私の質問は、プロジェクトのためにRとHadoopまたはConderとのインターフェースをとるべきかということです。
議論のために、驚異的並列タスクについて話していると仮定しましょう。
ps: CRANタスクビューで説明されているリソースを見てきました。
あなたは両方を行うことができます。
データセットにはHDFSを使用し、ジョブスケジューリングにはCondorを使用できます。Condorを使用してエグゼキュータをマシンに配置し、HDFS + Hadoops Map-Reduce機能を使用してデータを処理します(問題がmap-reduce mappableであると想定)。次に、ジョブに最も適切なツールを使用します。Condorはジョブスケジューラであるため、Hadoopよりもうまく機能します。また、HadoopのHDFSおよびMRフレームワークは、Condorにはないものです(ただし、Condorで実行されているジョブを使用するのに非常に役立ちます)。
私は個人的に、コンドルジョブとして個別に実行されるジョブ間でデータを共有するためのHDFSを持っていることを確認します。特に、共有コンピューティングリソースの信頼性が100%でなく、自由に行き来できる大学環境では、このタイプのセットアップにおけるCondorの復元力により、作業が非常に簡単になります。