0

大きなファイル A が与えられた場合、そのファイルのレコードと各レコードを反復処理する必要があります

  • 特定のフィールドの値を抽出する (ステータス)
  • このレコードを「status_」+値という名前のファイルに追加します
  • そのステータス値をレデューサーに発行します

そのため、出力には、ステータス別にグループ化されたレコードを含む一連のファイルと、ステータスのリストを含むファイルが含まれます

理想的には、

  • 'output_dir/statuses/status_nnn' (nnn は実際のステータス値) の下にステータスを含むファイルを配置します。
  • 「output_dir/status_list」には、ステータスが 1 行に 1 つずつ含まれます。

Hadoopでそれを行うことは可能ですか?この例でレコードごとにファイル名を生成する方法を見つけましたが、レコードを分離してステータスを列挙する方法がわかりません。

それらのレコードにどのステータスが含まれるかは事前にわかりません。

4

1 に答える 1