1

この質問は私の質問の一部に答えますが、完全には答えません。

これを管理するスクリプトを実行するにはどうすればよいですか?ローカルのファイルシステムからですか? MrJob や Dumbo のようなものは具体的にどこに出てくるのでしょうか? これ以上の代替手段はありますか?

Hadoop ストリーミングと Python を使用して、各反復 (MapReduce ジョブ) の出力が次の反復への入力となる K-Means を実行しようとしています。

私はあまり経験がなく、この作業を行うのに役立つ情報があれば幸いです。

4

4 に答える 4

1

Pythonとあまり緊密に連携していない場合は、非常に優れたオプションがあります。Clouderaには、MRジョブのパイプラインを簡単に作成できる「 Crunch 」というプロジェクトが1つあります。これは、MapReduceパイプラインを作成、テスト、実行するためのフレームワークを提供するJavaライブラリであり、GoogleのFlumeJavaライブラリに基づいています。

于 2012-12-17T20:44:37.693 に答える
1

別の非 Python オプションがあります。Graphlabは、マルチコア マシンおよびクラスター上でスケーラブルな機械学習アルゴリズムを無料で実装するためのオープン ソース プロジェクトです。パッケージに含まれる Kmeans++ アルゴリズムの高速でスケーラブルなバージョンが実装されています。詳細については、グラフラボを参照してください。

ここに画像の説明を入力

Graphlab のクラスタリング API は、ここにあります。

于 2012-12-17T22:38:40.387 に答える
0

Sparkの優れたアプリケーションのように思えます。ストリーミング オプションもありますが、残念ながらそれは Scala でしか動作しませんが、Python API があり、試してみる価値があります。使用するのはそれほど難しくありません (少なくともチュートリアル)。大まかにスケールします。

于 2014-05-23T10:44:49.053 に答える
0

Hadoopで実行されているGraphLab Create(Pythonで)を使用して、説明したことを実行できるはずです。クラスタリング ツールキットは、K-Means 部分の実装に役立ちます。ローカル マシンから調整/スクリプトを作成し、graphlab.deploy APIを使用して Hadoop でジョブを実行できます。

于 2014-07-22T21:35:06.147 に答える