EMR クラスターのパス「hdfs:///logs」に多数のログ ファイルがあります。各ログ エントリは複数行ですが、2 つのエントリを区別するための開始マーカーと終了マーカーがあります。今、
- ログ ファイルのすべてのエントリが役立つわけではありません
- 後で出力ログを (Hive を使用して) 効率的にクエリできるように、有用なエントリを変換し、出力を出力ファイルに保存する必要があります。
ログファイルを取得して一部を実行できるPythonスクリプトがあります。そしてb。上で述べましたが、私はマッパーやリデューサーを書いていません。
Hive は、そのクエリのために Mapper と Reducer を処理します。Python スクリプトを使用してすべてのログに対して実行し、出力を 'hdfs:///outputlogs' に保存することが可能かどうか、またその方法を教えてください。
私は Map Reduce を初めて使用し、Word カウントの例をいくつか見てきましたが、それらはすべて 1 つの入力ファイルを持っています。複数の入力ファイルを持つ例はどこにありますか?