c# - Windows サーバー上の Hadoop

Question

Hadoop を使用して、既存の Windows 2003 サーバー (16 GB の RAM を搭載した約 10 台のクアッドコアマシン) で大きなテキストファイルを処理することを考えています。

質問は次のとおりです。

Windows で Hadoop クラスターを構成する方法に関する適切なチュートリアルはありますか?
要件は何ですか？Java + cygwin + sshd ? 他に何か？
HDFS、Windows でうまく再生できますか?
ストリーミングモードで Hadoop を使用したいと考えています。C# で独自のマッパー/リデューサーを開発するためのアドバイス、ツール、またはトリックはありますか?
ジョブの送信と監視に何を使用していますか?

ありがとう

score 9 · Accepted Answer

聞きたい答えではないかもしれませんが、マシンを Linux サーバーなどに転用し、そこで Hadoop を実行することを強くお勧めします。そのプラットフォームで実行されるチュートリアル、経験、およびテストの恩恵を受け、運用上の問題ではなく、ビジネス上の問題の解決に時間を費やすことができます。

ただし、C# でジョブを作成することはできます。Hadoop は「ストリーミング」実装をサポートしているため、ジョブを任意の言語で作成できます。Mono フレームワークを使用すると、Windows プラットフォームで記述されたほぼすべての .NET コードを取り、Linux で同じバイナリを実行するだけで済みます。

また、Windows から HDFS に簡単にアクセスすることもできます。Windows で Hadoop サービスを実行することはお勧めしませんが、Windows プラットフォームから DFS クライアントを実行して、分散ファイルシステムの内外にファイルをコピーすることはできます。

ジョブのサブミットと監視に関しては、主にあなた自身であると思います... Hadoop ジョブ管理用に開発された優れた汎用システムはまだないと思います。

score 2 · Accepted Answer

map/reduce をお探しの場合は、Windows で動作する MySpace の新しい map/reduce フレームワークhttp://qizmt.myspace.com/をご覧ください。

c# - Windows サーバー上の Hadoop

3 に答える 3

Related

Reference