0

EMRでマッパーとリデューサーからカスタムログを取得することは可能ですか....特定の条件に基づいてデータとフィルターを通過するマッパーがあるとしましょう

Mapper コード (ストリーミング)

  • 入力行を見てください
  • ユーザーエージェントが悪い場合 - カスタムログにログインします
  • それ以外の場合はレデューサーに渡します

カスタム ログを作成し、そのジョブのログ ディレクトリにあるすべてのマッパーから統合ログを取得するにはどうすればよいですか。

同様に、リデューサーフェーズでログを記録したい場合

  • キーの値を操作します (日時による並べ替えなど)。
  • 1 時間に 20 を超えるイベントが発生した場合、これは不適切なユーザーです - カスタム ログにログを記録します -そうでなければ、出力に進みます

どんな助けでも大歓迎です。ありがとう

4

2 に答える 2

0

複数の出力を実現するには、 http://hadoop.apache.org/docs/r2.0.3-alpha/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.htmlを参照してください。

複数の/名前付き出力ファイルを作成するための Java API のサポートがあります。

ruby で書かれたストリーミング コードでそれを行う方法を見つけることができませんでした。

于 2013-11-19T17:53:21.517 に答える