Hadoop の初心者です。概念的には、理解するのは非常に簡単ですが、実際の課題の 1 つは、map-reduce アーキテクチャで解決する問題をどのようにモデル化するかです。データに 2 つの部分 (すべてオラクル) が含まれているとします。1. ほとんど変化しないかなり静的なデータ 2. 毎日収集される新鮮なデータ。
現在、データ処理は基本的に新しいデータを読み取り、対応する静的データ(またはメタデータ)を見つけて使用し、それにアルゴリズムを適用してOracleにダンプします。
このようなアプリケーション パラダイムをモデル化するにはどうすればよいでしょうか。静的データを分散キャッシュの一部として保存/保存しますか? そのデータがかなり大きい場合はどうなりますか?
基本的に、次のような例をもっと探しています: http://stevekrenzel.com/finding-friends-with-mapreduce
ありがとう、