2

私はHadoopから始めて、いくつかのMapReduceジョブを書いています。私はPythonでMRジョブを作成するためのヘルプを探していました。これにより、いくつかの電子メールを取得してHDFSに入れ、電子メールのテキストまたは添付ファイルを検索できますか?

ありがとうございました!

4

2 に答える 2

3

電子メールを処理するにはemail、stdlib のモジュールがおそらく便利です。Hadoop 側では、Hadoop でPython を使用すると便利な場合がありますが、選択できる Google の結果はたくさんあります。

于 2012-04-13T16:11:05.840 に答える
1

MapReduce ジョブを実行するために Python コードを記述したい場合は、hadoop ストリーミングを使用する必要があります。

于 2012-04-13T16:49:59.077 に答える