私は既存のクラスタリング アルゴリズムを拡張して非常に大きなデータ セットに対処したいと考えており、データのパーティションで計算できるように再設計しました。これにより、並列処理への扉が開かれます。私は Hadoop と Pig を検討してきましたが、実用的な開始点として、データの基本的な統計 (算術平均と分散) を計算することから始めるのがよいと考えました。
私はしばらくグーグルで検索してきましたが、適切なキーワードを使用していない可能性があり、この種の計算を行うための優れた入門書となるものを実際に見つけられなかったので、ここで質問しようと思いました.
Hadoopを使用して平均と分散を計算する方法の良いサンプルを教えてください。また、サンプルコードを提供してください。
ありがとう