私はしばらく MapReduce を検討してきましたが、これはフォールト トレラントな分散コンピューティングを実装するための非常に優れた方法のようです。このトピックに関する多くの論文や記事を読み、一連の仮想マシンに Hadoop をインストールし、いくつかの非常に興味深いテストを行いました。Map と Reduce の手順を理解していると思います。
しかし、ここに私の問題があります。http サーバーのログ分析にどのように役立つかわかりません。
私の理解では、大企業 (たとえば Facebook) は、http ログを計算する目的で MapReduce を使用して、これらからオーディエンス統計を抽出するプロセスをスピードアップします。私が働いている会社は、Facebook よりも小さいですが、毎日計算する大量の Web ログを持っています (100Go は毎月 5 から 10% の間で成長しています)。現在、これらのログを単一のサーバーで処理していますが、問題なく動作しています。しかし、コンピューティング ジョブの分散は、すぐに役立つ最適化としてすぐに頭に浮かびます。
現時点でお答えできない質問は次のとおりです。
- MapReduce の概念は本当にブログ分析に適用できるのでしょうか?
- MapReduce はそれを行うための最も賢い方法ですか?
- さまざまなコンピューティング インスタンス間で Web ログ ファイルをどのように分割しますか?
ありがとうございました。
ニコラス