hadoop - Hadoop で 2 つの異なるファイルを結合する

翻译自：https://stackoverflow.com/questions/21799249 2014-02-15T15:03:07.180

46 次

Hadoop で非常に具体的な問題があります。

userlistと *raw_data*の 2 つのファイルがあります。現在、raw_data はかなり大きなファイルであり、userlist は他のファイルよりも比較的小さいです。

最初にマッパーの数を特定する必要があり、ユーザーリストをマッパーの数と同じ数に分割する必要があります。後で分散キャッシュにロードする必要があり、ユーザーリストと比較して分析を実行し、レデューサーに書き込む必要があります。

提案してください。

ありがとうございました。

1 に答える 1