キーごとにマッパーごとに新しいシーケンス ファイルを出力するカスタム出力形式を使用しているので、このような結果になります。
入力
Key1 Value
Key2 Value
Key1 Value
ファイル
/path/to/output/Key1/part-00000
/path/to/output/Key2/part-00000
パフォーマンスが大幅に低下していることに気付きました。通常、入力データを単純にマッピングするのに約 10 分かかりますが、2 時間後にはマッパーは半分も完成していませんでした。行を出力していましたが。一意のキーの数は、入力行数の約半分、約 200,000 になると予想しています。
誰かがこのようなことをしたことがありますか、またはパフォーマンスに役立つ可能性のある何かを提案できますか? このキー分割プロセスを可能な限り Hadoop 内に保ちたいと思います。
ありがとう!