Hadoop で非常に具体的な問題があります。
userlistと *raw_data*の 2 つのファイルがあります。現在、raw_data はかなり大きなファイルであり、userlist は他のファイルよりも比較的小さいです。
最初にマッパーの数を特定する必要があり、ユーザーリストをマッパーの数と同じ数に分割する必要があります。後で分散キャッシュにロードする必要があり、ユーザーリストと比較して分析を実行し、レデューサーに書き込む必要があります。
提案してください。
ありがとうございました。