私はHadoopから始めて、いくつかのMapReduceジョブを書いています。私はPythonでMRジョブを作成するためのヘルプを探していました。これにより、いくつかの電子メールを取得してHDFSに入れ、電子メールのテキストまたは添付ファイルを検索できますか?
ありがとうございました!
電子メールを処理するにはemail
、stdlib のモジュールがおそらく便利です。Hadoop 側では、Hadoop でPython を使用すると便利な場合がありますが、選択できる Google の結果はたくさんあります。
MapReduce ジョブを実行するために Python コードを記述したい場合は、hadoop ストリーミングを使用する必要があります。