問題タブ [emr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - AmazonHadoopEMRとカスタム入力ファイル形式
AmazonEMRがカスタムInputFileFormatを受け入れるのに少し問題があります。
ログファイルを見る:
EMRのHadoopがデフォルトのリーダーを想定しているInputFileFormat
ようです...何が間違っているのですか?
注:の可用性に関してHadoopからエラーが発生することはありませんXmlInputClass
。*注2:*ファイルを取得<property><name>mapreduce.inputformat.class</name><value>com.xyz.XmlInputFormat</value></property>
しjobs/some_job_id.conf.xml
ます。
アップデート:
php - HL7 - SIU をトリガーして EMR から情報を取得する
HL7 を使用して EMR から情報を取得する方法を探しています。既存の EMR からスケジュール情報を取得する必要があります。必要な情報はすべて SIU メッセージの中にあります。ただし、私の理解では、これらは単なる通知であり、新しい情報のフィードを提供するものです。すべてのスケジューリング日時をプルするために、既存のすべてのスケジューリング レコードに対して SIU-12 をトリガーする方法が必要です。HL7でこれを達成する方法はありますか?
ありがとう!
python - Hadoop EMR でのログの確保
Amazon EMR で Hadoop ストリーミング ジョブを長時間実行しています (15 ノード、>1.5 時間)。ジョブは約 75% の完了レベルで失敗します。マッパーとリデューサーの両方に Python を使用しています。
次の最適化を行いました。
logging
また、モジュールでログエントリを発行した直後に次を追加しました。
無駄にエラーをキャッチしようとする: Hadoop ログ ファイルにエラーが表示されない :(
Hadoop でメッセージをログに記録し、ドロップしないようにするにはどうすればよいですか?
hadoop - Hive テーブルにパーティションを追加して、すべてのサブディレクトリをロードする
Amazon S3 に保存されているデータを処理するために (外部テーブルを使用して) ハイブを使用しています。
私のデータは次のように分割されています:
group/team/dt/
(たとえば、データファイルはパスに保存されている可能性がありますgroup=myGroup/team=myTeam/dt=20120603
)
複数のチーム (異なるグループ) のデータを処理したいと考えています。RCOVER PARTITIONS には時間がかかるため、グループとチームの値に基づいて複数のパーティションをハイブ テーブルに追加したいと考えています (つまり、そのチームで利用可能なすべての日付のグループとチームの負荷データが与えられた場合)。
私が探している機能は次のとおりです。
ありがとう!
amazon-web-services - EMRを実行し続ける方法
起動したEMRクラスターを実行し続け、完了するまで(たとえば、数日後)新しいジョブを送信し続けてからクラスターをシャットダウンすることはできますか、それともEC2で自分のクラスターを起動する必要がありますか?
amazon-web-services - HDFS に出力する EMR ジョブで distcp と s3distcp を使用する際の問題
AWS の EMR でジョブを実行し、出力を EMR ジョブの HDFS に保存しました。次に、distcp または s3distcp を介して結果を S3 にコピーしようとしていますが、以下で説明するように両方とも失敗しています。(注: EMR ジョブの出力を S3 に直接送信するだけではない理由は、完了したジョブの AWS EMR レデューサー出力はどこにありますか (S3 にあるはずですが、そこには何もない) で説明した (現在未解決の) 問題が原因です) )?
distcp の場合、次のように実行します (この投稿の推奨に従って):
エラー ログ (/mnt/var/log/hadoop/steps/8) に次のように表示されます。
s3distcp の場合、次を実行します ( s3distcp のドキュメントに従って):
エラー ログ (/mnt/var/log/hadoop/steps/9) には、次のように表示されます。
私が間違っていることはありますか?
更新: AWS フォーラムで、同様の distcp エラーに関する投稿に回答した人が、IAM ユーザーのユーザー権限について言及していますが、これが何を意味するのかわかりません(編集: IAM ユーザーを作成していないため、デフォルトを使用しています); うまくいけば、それが私の問題を特定するのに役立ちます。
更新 2: namenode ログ ファイルでこのエラーに気付きました (s3distcp の再実行時)。デフォルトの EMR 権限を調べて、それが私の問題かどうかを確認します。
更新 3: AWS サポートに連絡しましたが、問題は見られなかったので、エンジニアリング チームからの連絡を待っています。詳細がわかり次第投稿します
python - python mrjobワードカウントの例を実行中にエラーが発生しました
mrjobを使用して単語数マップ削減タスクの例を実行しようとしています。次のエラーが表示されます。
json - JSONデータからHIVEテーブルを作成するにはどうすればよいですか?
いくつかのJSONデータ(ネストされた)からHiveテーブルを作成し、それに対してクエリを実行したいですか?これも可能ですか?
JSONファイルをS3にアップロードしてEMRインスタンスを起動するところまで到達しましたが、JSONファイルをHiveテーブルにするためにハイブコンソールに何を入力すればよいかわかりません。
誰かが私を始めるためのいくつかのサンプルコマンドを持っていますか、私はグーグルで役立つものを見つけることができません...
json - JSONデータでHiveクエリを実行中にエラーが発生しましたか?
私は以下を含むデータを持っています:
それをS3にアップロードし、Hiveコンソールから以下を使用してHiveテーブルに変換しました。
クエリ:
正常に出力されますが、get_json_objectUDFを使用しようとするとすぐに
クエリを実行します。
次のエラーが発生します。
誰かが何が悪いのか知っていますか?