amazon-s3 - Amazon EMR/S3 で出力を表示するには?

Question

私は Amazon サービスを初めて使用し、Amazon EMR でアプリケーションを実行しようとしました。

そのために、次の手順に従いました。

1) --> create table を含む Hive スクリプトを作成し、いくつかのファイルを使用して Hive にデータステートメントをロードし、コマンドから * を選択します。

2) S3 バケットを作成しました。そして、オブジェクトを次のようにロードします: Hive スクリプト、テーブルにロードするファイル。

3) 次に、ジョブフローを作成します (サンプルの Hive プログラムを使用)。入力、出力、およびスクリプトパス (s3n://bucketname/script.q、s3n://bucketname/input.txt、s3n://bucketname/out/ など) を指定します。out ディレクトリを作成しませんでした。自動的に作成されると思います。

4) その後、ジョブフローが実行を開始し、しばらくすると、STARTING、BOOTSTRAPING、RUNNING、SHUT DOWN の状態が表示されます。

5) SHUT DOWN 状態の実行中に、SHUT DOWN の FAILES ステータスを表示して自動的に終了します。

次に、S3 で、out ディレクトリが表示されませんでした。出力を見るには？デーモン、ノードなどのディレクトリを見ました......

また、Amazon EMR で HDFS からのデータを表示する方法も教えてください。

score 2 · Accepted Answer

ステップ 3 で指定した出力パスには、結果が含まれているはずです (説明によると、s3n://bucketname/out/ です)。

そうでない場合は、Hive スクリプトで問題が発生しています。Hive ジョブが失敗した場合、失敗/例外に関する情報が jobtracker ログに表示されます。jobtracker ログは以下に存在します<s3 log location>/daemons/<master instance name>/hadoop-hadoop-jobtracker-<some Amazon internal IP>.log

上記の形式の S3 キーを持つのは、ログディレクトリ内の 1 つのファイルだけです。このファイルには、発生した可能性のあるすべての例外が含まれます。おそらく、ファイルの末尾に集中する必要があります。

amazon-s3 - Amazon EMR/S3 で出力を表示するには?

1 に答える 1

Related

Reference