問題タブ [emr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - AmazonEMRでのHadoop1.0.1ジョブのサポート
私はjavaとhadoop1.0.1を使用していくつかのMRジョブを開発しました。ただし、EMRはHadoop0.20までしかサポートしていません。EMRでHadoop1.0.1ジョブを実行することは可能ですか、それともEMR hadoopバージョンに準拠するためにライブラリスタックをダウングレードする必要がありますか?
amazon-web-services - Amazon EMR ジョブの実行時に「ファイルが存在しません」というエラーが発生する
データをアップロードしました genotype1_large_ind_large.txt phenotype1_large_ind_large_1.txt
S3 システムに接続し、EMR UI で以下のようにパラメーターを設定します。
RunDear.run s3n://scalability/genotype1_large_ind_large.txt s3n://scalability/phenotype1_large_ind_large_1.txt s3n://scalability/output_1phe 33 10 4
私のクラスRunDear.runでは、ファイルgenotype1_large_ind_large.txtとphenotype1_large_ind_large_1.txtをキャッシュに配布します
しかし、EMR を実行した後、次のエラーが発生します: java.io.FileNotFoundException: ファイルが存在しません: /genotype1_large_ind_large.txt
ファイル名の前にスラッシュ「/」があるのはなぜですか? それを機能させる方法は?
私も以下のように使用しようとしましたが、私のプログラムは -cacheFile を引数として取るため、これも動作しません。
RunDear.run -cacheFile s3n://scalability/genotype1_large_ind_large.txt#genotype.txt -cacheFile s3n://scalability/phenotype1_large_ind_large_1.txt#phenotype.txt s3n://scalability/output_1phe 33 280 4
azure - Hadoop の場合、Amazon S3 と Azure Blob Store のどちらのデータ ストレージを選択しますか?
Hadoop プロジェクトに取り組んでおり、ローカル クラスターで大量のデータを生成しています。Hadoop クラスターは実際の作業負荷に比べて非常に小さいため、すぐにクラウド ベースの Hadoop ソリューションを使用する予定ですが、現時点では、Windows Azure ベース、EMR、またはその他のいずれを使用するかを選択することはできません。大量のデータをローカルで生成しており、このデータを後で Hadoop で使用するという事実に基づいて、このデータをクラウド ベースのストレージに保存したいと考えています。
誰かの経験に基づいて選択するクラウド ストアを決定するための提案を探しています。前もって感謝します。
java - Amazon EMR: XML またはプロパティ ファイルを JAR に渡す
単一の JAR ファイルから、hadoop クラスターでいくつかの map reduce ジョブを実行してきました。JAR の Main は、XML ファイルをコマンド ライン パラメータとして受け入れます。XML ファイルには、各ジョブの入力パスと出力パス (名前と値のプロパティのペア) が含まれており、これらを使用して各 mapreduce ジョブを構成します。次のようにパスを構成にロードできます
Amazon の Elastic MapReduce を使用して JAR を実行しようとしています。XML ファイルを S3 にアップロードしようとしましたが、もちろん FileInputStream を使用して S3 からパス データをロードすることはできません (FileNotFound Exception)。
EMR を使用する場合、XML ファイルを JAR に渡すにはどうすればよいですか?
(私はブートストラップアクションを見ましたが、私が知る限り、それはhadoop固有の構成を指定することです)。
任意の洞察をいただければ幸いです。ありがとう。
amazon-emr - aws emr を使用して定期的にデータを処理する
このスレッドで尋ねられたものと同様の質問があると思いますが、より具体的にしようと思います...
aws を使用してデータを定期的に処理する最良の方法は何ですか。たとえば、S3 に集約したレポートを 1 分に 1 回処理したいとします。スクリプトを介して毎分既存のジョブにステップを追加するのが最善の方法ですか?
solr - Map/Reduce を使用して Solr インデックスを作成する方法について提案が必要です
私はMap/Reduceの世界にかなり慣れていないので、Solrでインデックスを作成するためにそれを活用できるかどうかを判断するための最良のオプションを評価しようとしています. 現在、定期的なクロールを使用してデータを取得し、Solr で直接インデックスを作成しています。これは問題なく動作しています。
しかし今後は、Amazon S3 にあるかなりのデータにアクセスする必要があります。現在 S3 に保存されている約 500 万のデータがあり、インデックスを作成する必要があります。Amazon Elastic Map/Reduce (EMR) を使用して S3 からコンテンツに直接アクセスし、その後 Solr でインデックスを作成することを考えています。データ構造は単純で、url (一意) は S3 キー、値は XML ファイルです。URL は Solr のドキュメント ID として使用され、XML データの関連部分は Solr インデックスのフィールドとして保存されます。
私の質問は、EMR が正しいアプローチであるかどうかです。タスクは、S3 からデータにアクセスし、XML から特定の要素を抽出し、何らかの処理を行ってから、Solr API を呼び出してインデックスを生成することです。処理部分では、データにインデックスを付ける前に、いくつかのクラス (おそらくコマンド パターンのチェーン) が必要です。それは達成可能なものですか?レデューサーが必要ですか、それともマッパーを使用してプロセスを実行できますか? レデューサーが必要な場合、その範囲はどうなりますか? 現在、データを格納している単一のインデックスがあります。
これに関する指針は高く評価されます。
ありがとう
hadoop - EMRジョブのカスタムRecordReader
RecordReader
Amazon EMRのジョブフローで使用するカスタムを指定するにはどうすればよいですか?
注: Hadoop初心者はこちら。
r - セグエパッケージのEmrlapplyは単純なタスクでは機能しません
https://jeffreybreen.wordpress.com/2011/01/10/segue-r-to-amazon-elastic-mapreduce-hadoop/segue
から使用の簡単な例を再現しようとしました
クラスターの作成は成功しました
ローカルシミュレーションは問題ありませんでしたが、クラスターで実行すると毎回エラーが返されました。
私はこのパッケージのアイデアが好きで、それが私の仕事に役立つことを願っていますが、この基本的な問題を解決する方法を理解することはできません。
segue
0.02のバージョン
OS:Ubuntu 11.10
更新:Pi推定の別のサンプルテストケースを実行しようとしましたがemrlapply
、同じエラーメッセージが返されました。
UPDATE2:バージョン0.03に更新しましたが、クラスターに接続できませんでした。正常に起動した後、インスタンスは効果なしでシャットダウンしようとしました。AWSconsolを介してインスタンスを終了しました。そのため、古い問題は解決されましたが、新しい問題が発生しました。
hadoop - Amazon EMR: データを使用してクラスターを初期化する
Amazon EMR を使用しており、CLI ツールを使用してジョブフローを作成および実行できます。ジョブは正常に実行されます。ただし、S3 と名前ノードのローカル ファイル システムの両方から EMR クラスターの HDFS にデータをロードしようとすると、問題が発生します。
S3 から HDFS を作成したいと思います。これを行うには S3DistCp ツールを使用しようとしています。私はこのコマンドを実行しています:
ログに、おそらく関連する 2 つのエラーが記録されています。mapreduce ジョブの出力では、ジョブは 100% まで完了しますが、最後に失敗します。
名前ノードデーモンログで、次の例外が発生しています:
ジョブフローの作成時に dfs.replication=1 を設定しました。私のノードは c1.mediums で、HDFS にプッシュしようとしているデータは 3GB 未満です。したがって、ディスク不足の問題ではないはずです。しかし、多分私は何かを見逃しています。
2 つの質問: 1) S3DistCp が失敗する理由についての洞察はありますか? 2) 2 番目の質問は、多少無関係です。最初のジョブが S3DistCp ジョブであるジョブフローを作成して、クラスターをデータで初期化することは可能ですか?
任意の洞察をいただければ幸いです。ありがとう。
更新:コメントの下の私のテストは機能していないようです。ログからの詳細情報を次に示します。
hadoop - Amazon EMR: データノードでのストレージの構成
Amazon EMR を使用していますが、ほとんどのジョブを正常に実行できます。EMR クラスター内でより多くのデータの読み込みと生成を開始すると、問題が発生します。クラスターのストレージ容量が不足しています。
各データノードは c1.medium インスタンスです。こことここのリンクによると、各データ ノードには 350 GB のインスタンス ストレージが必要です。ElasticMapReduce Slave セキュリティ グループを介して、AWS コンソールで c1.medium データ ノードが実行中で、インスタンス ストアであることを確認できました。
namenode で hadoop dfsadmin -report を実行すると、各データ ノードには約 10 GB のストレージがあります。これは、df -h を実行することでさらに検証されます
350 GB のフル ストレージで起動するようにデータ ノードを構成するにはどうすればよいですか? ブートストラップアクションを使用してこれを行う方法はありますか?