15

Hadoop を使用して、既存の Windows 2003 サーバー (16 GB の RAM を搭載した約 10 台のクアッド コア マシン) で大きなテキスト ファイルを処理することを考えています。

質問は次のとおりです。

  1. Windows で Hadoop クラスターを構成する方法に関する適切なチュートリアルはありますか?

  2. 要件は何ですか?Java + cygwin + sshd ? 他に何か?

  3. HDFS、Windows でうまく再生できますか?

  4. ストリーミング モードで Hadoop を使用したいと考えています。C# で独自のマッパー/リデューサーを開発するためのアドバイス、ツール、またはトリックはありますか?

  5. ジョブの送信と監視に何を使用していますか?

ありがとう

4

3 に答える 3

9

聞きたい答えではないかもしれませんが、マシンを Linux サーバーなどに転用し、そこで Hadoop を実行することを強くお勧めします。そのプラットフォームで実行されるチュートリアル、経験、およびテストの恩恵を受け、運用上の問題ではなく、ビジネス上の問題の解決に時間を費やすことができます。

ただし、C# でジョブを作成することはできます。Hadoop は「ストリーミング」実装をサポートしているため、ジョブを任意の言語で作成できます。Mono フレームワークを使用すると、Windows プラットフォームで記述されたほぼすべての .NET コードを取り、Linux で同じバイナリを実行するだけで済みます。

また、Windows から HDFS に簡単にアクセスすることもできます。Windows で Hadoop サービスを実行することはお勧めしませんが、Windows プラットフォームから DFS クライアントを実行して、分散ファイル システムの内外にファイルをコピーすることはできます。

ジョブのサブミットと監視に関しては、主にあなた自身であると思います... Hadoop ジョブ管理用に開発された優れた汎用システムはまだないと思います。

于 2009-04-23T00:37:11.193 に答える
2

map/reduce をお探しの場合は、Windows で動作する MySpace の新しい map/reduce フレームワークhttp://qizmt.myspace.com/をご覧ください。

于 2009-09-16T01:57:26.493 に答える