大きなファイル A が与えられた場合、そのファイルのレコードと各レコードを反復処理する必要があります
- 特定のフィールドの値を抽出する (ステータス)
- このレコードを「status_」+値という名前のファイルに追加します
- そのステータス値をレデューサーに発行します
そのため、出力には、ステータス別にグループ化されたレコードを含む一連のファイルと、ステータスのリストを含むファイルが含まれます
理想的には、
- 'output_dir/statuses/status_nnn' (nnn は実際のステータス値) の下にステータスを含むファイルを配置します。
- 「output_dir/status_list」には、ステータスが 1 行に 1 つずつ含まれます。
Hadoopでそれを行うことは可能ですか?この例でレコードごとにファイル名を生成する方法を見つけましたが、レコードを分離してステータスを列挙する方法がわかりません。
それらのレコードにどのステータスが含まれるかは事前にわかりません。