hadoop - Hadoop Streaming と Python を使用して MapReduce ジョブをチェーンするのに役立つ優れたライブラリはありますか?

Question

この質問は私の質問の一部に答えますが、完全には答えません。

これを管理するスクリプトを実行するにはどうすればよいですか?ローカルのファイルシステムからですか? MrJob や Dumbo のようなものは具体的にどこに出てくるのでしょうか? これ以上の代替手段はありますか？

Hadoop ストリーミングと Python を使用して、各反復 (MapReduce ジョブ) の出力が次の反復への入力となる K-Means を実行しようとしています。

私はあまり経験がなく、この作業を行うのに役立つ情報があれば幸いです。

score 1 · Accepted Answer

Pythonとあまり緊密に連携していない場合は、非常に優れたオプションがあります。Clouderaには、MRジョブのパイプラインを簡単に作成できる「 Crunch 」というプロジェクトが1つあります。これは、MapReduceパイプラインを作成、テスト、実行するためのフレームワークを提供するJavaライブラリであり、GoogleのFlumeJavaライブラリに基づいています。

score 1 · Accepted Answer

別の非 Python オプションがあります。Graphlabは、マルチコアマシンおよびクラスター上でスケーラブルな機械学習アルゴリズムを無料で実装するためのオープンソースプロジェクトです。パッケージに含まれる Kmeans++ アルゴリズムの高速でスケーラブルなバージョンが実装されています。詳細については、グラフラボを参照してください。

ここに画像の説明を入力

Graphlab のクラスタリング API は、ここにあります。

score 0 · Accepted Answer

Sparkの優れたアプリケーションのように思えます。ストリーミングオプションもありますが、残念ながらそれは Scala でしか動作しませんが、Python API があり、試してみる価値があります。使用するのはそれほど難しくありません (少なくともチュートリアル)。大まかにスケールします。

score 0 · Accepted Answer

Hadoopで実行されているGraphLab Create（Pythonで）を使用して、説明したことを実行できるはずです。クラスタリングツールキットは、K-Means 部分の実装に役立ちます。ローカルマシンから調整/スクリプトを作成し、graphlab.deploy APIを使用して Hadoop でジョブを実行できます。

hadoop - Hadoop Streaming と Python を使用して MapReduce ジョブをチェーンするのに役立つ優れたライブラリはありますか?

4 に答える 4

Related

Reference