statistics - Hadoop を使用した単純な統計計算の例

Question

私は既存のクラスタリングアルゴリズムを拡張して非常に大きなデータセットに対処したいと考えており、データのパーティションで計算できるように再設計しました。これにより、並列処理への扉が開かれます。私は Hadoop と Pig を検討してきましたが、実用的な開始点として、データの基本的な統計 (算術平均と分散) を計算することから始めるのがよいと考えました。

私はしばらくグーグルで検索してきましたが、適切なキーワードを使用していない可能性があり、この種の計算を行うための優れた入門書となるものを実際に見つけられなかったので、ここで質問しようと思いました.

Hadoopを使用して平均と分散を計算する方法の良いサンプルを教えてください。また、サンプルコードを提供してください。

ありがとう

score 1 · Accepted Answer

クラスタリングコードがカスケーディングに移行できるかどうかを再確認してください。新しい関数を追加したり、既存の Java ライブラリに結合したりするのは非常に簡単です。

http://www.cascading.org/

また、Clojure に興味がある場合は、次の github プロジェクトを見ることができます: http://github.com/clj-sys

これらは、Clojure で実装された新しいアルゴリズムを Cascading (Hadoop MapReduce の上に重ねられる) の上に重ねています。

score 1 · Accepted Answer

Pig latin には、多数の便利な機能を備えた PiggyBank と呼ばれる再利用可能なコードのライブラリが関連付けられています。残念ながら、前回チェックしたときは差異がありませんでしたが、変更された可能性があります。他に何もないとしても、独自の実装を開始するための例を提供する可能性があります。

分散は、巨大なデータセットに対して安定した方法で実装するのが難しいことに注意する必要があるため、注意してください!

statistics - Hadoop を使用した単純な統計計算の例

2 に答える 2

Related

Reference