0

Hadoop で非常に具体的な問題があります。

userlistと *raw_data*の 2 つのファイルがあります。現在、raw_data はかなり大きなファイルであり、userlist は他のファイルよりも比較的小さいです。

最初にマッパーの数を特定する必要があり、ユーザーリストをマッパーの数と同じ数に分割する必要があります。後で分散キャッシュにロードする必要があり、ユーザーリストと比較して分析を実行し、レデューサーに書き込む必要があります。

提案してください。

ありがとうございました。

4

1 に答える 1