3

私は Amazon サービスを初めて使用し、Amazon EMR でアプリケーションを実行しようとしました。

そのために、次の手順に従いました。

1) --> create table を含む Hive スクリプトを作成し、いくつかのファイルを使用して Hive にデータ ステートメントをロードし、コマンドから * を選択します。

2) S3 バケットを作成しました。そして、オブジェクトを次のようにロードします: Hive スクリプト、テーブルにロードするファイル。

3) 次に、ジョブ フローを作成します (サンプルの Hive プログラムを使用)。入力、出力、およびスクリプト パス (s3n://bucketname/script.q、s3n://bucketname/input.txt、s3n://bucketname/out/ など) を指定します。out ディレクトリを作成しませんでした。自動的に作成されると思います。

4) その後、ジョブ フローが実行を開始し、しばらくすると、STARTING、BOOTSTRAPING、RUNNING、SHUT DOWN の状態が表示されます。

5) SHUT DOWN 状態の実行中に、SHUT DOWN の FAILES ステータスを表示して自動的に終了します。

次に、S3 で、out ディレクトリが表示されませんでした。出力を見るには?デーモン、ノードなどのディレクトリを見ました......

また、Amazon EMR で HDFS からのデータを表示する方法も教えてください。

4

1 に答える 1

2

ステップ 3 で指定した出力パスには、結果が含まれているはずです (説明によると、s3n://bucketname/out/ です)。

そうでない場合は、Hive スクリプトで問題が発生しています。Hive ジョブが失敗した場合、失敗/例外に関する情報が jobtracker ログに表示されます。jobtracker ログは以下に存在します<s3 log location>/daemons/<master instance name>/hadoop-hadoop-jobtracker-<some Amazon internal IP>.log

上記の形式の S3 キーを持つのは、ログ ディレクトリ内の 1 つのファイルだけです。このファイルには、発生した可能性のあるすべての例外が含まれます。おそらく、ファイルの末尾に集中する必要があります。

于 2012-04-26T03:55:02.330 に答える