問題タブ [elastic-map-reduce]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Amazon Elastic Mapreduce プログラムの Ganglia メトリクスを使用して実行できる測定比較には、どのようなものがありますか?
Ganglia モニタリングがグリッド コンピューティング プロジェクトで実装および分析されているのを見たことがありますが、Amazon Elastic Mapreduce プログラムの手順については読んだことがありません。Ganglia には多くのメトリクスがありますが、弾力性のある mapreduce プログラムのパフォーマンスを分析するレポートを書きたい場合、注目すべき重要なメトリクスは何ですか? 参考になる良い研究論文や記事はありますか?弾性 mapreduce と神経節メトリクスに関連して論文で議論する重要な概念は何ですか?
私は自分のプログラムをPythonで書いており、それをelastic mapreduceで実行してから、神経節を使用して監視したいと考えていますが、神経節の監視結果からいくつかの結論を導き出し、記事や以前に行われた研究と比較して参照できるようにしたいと考えていますこのタイプの使用法に似ています。
amazon-ec2 - EC2 ジョブ フローの失敗
s3 で実行したい jar ファイル MapReduce があります。入力ディレクトリと出力ファイルの 2 つの引数を取ります。
そこで、elastic-mapreduce ruby コマンド ライン ツールを使用して次のコマンドを試しました。
これはエラーで失敗しました
スレッド「メイン」の例外 java.lang.ClassNotFoundException: s3n://this/bucket/com/data/
そこで、それぞれの引数の後に --input と --output を使用して試しました。--input クラスが見つからないというエラーでそれも失敗しました( --input を解読できなかったようで、入力後に引数を解読できなかったわけではありません)
これはとても基本的なことのように思えますが、うまく機能させるのに苦労しています。どんな助けでも大歓迎です。ありがとう。
bash - 画像処理に Amazon MapReduce/Hadoop を使用する
大量 (1000 ~ 10000) の大きな (100MB ~ 500MB) 画像を処理する必要があるプロジェクトがあります。私が行っている処理は Imagemagick を介して行うことができますが、実際にこの処理を Amazon の Elastic MapReduce プラットフォーム (Hadoop を使用して実行されていると思われます) で行うことを望んでいました。
私が見つけたすべての例の中で、それらはすべてテキストベースの入力を扱っています (Word Count が 10 億回サンプリングしていることがわかりました)。Hadoop でのこの種の作業については何も見つかりません。一連のファイルから始めて、各ファイルに対して同じアクションを実行し、新しいファイルの出力を独自のファイルとして書き出します。
これはこのプラットフォームで実行できると確信しており、Bash を使用して実行できるはずです。わざわざ Java アプリケーション全体を作成する必要はないと思いますが、間違っている可能性もあります。
誰かにコードを渡してくれるように頼んでいるわけではありませんが、サンプル コードや、同様の問題を扱うチュートリアルへのリンクを持っている人がいれば、大歓迎です...
amazon-web-services - AWSEMRで1つのレデューサーを強制する
EMRストリーミングジョブにレデューサーのみがあることを確認するにはどうすればよいですか?新しいジョブフローを作成するときに、Webフロントエンドからこれを行う方法はありますか?
r - R segue createCluster()の問題
EC2でクラスターを作成しようとしています。アカウントを設定し、AWSで検証しました。segue
パッケージと関連パッケージを正常にダウンロードしてインストールし、AWSクレデンシャルを設定しました。私の問題は、クラスターを作成しようとすると次のようになります。
何か案は?
hadoop - Elastic Map Reduce 上の Pig で分散キャッシュを使用する
Amazon の Elastic Map Reduce で Pig スクリプト (UDF を使用) を実行しようとしています。UDF 内のいくつかの静的ファイルを使用する必要があります。
UDF で次のようなことを行います。
ファイルを s3 バケット /path/to/myfile.txt に保存しました
ただし、Pig ジョブを実行すると、例外が表示されます。
Got an exception java.io.FileNotFoundException: ./myfile.txt (No such file or directory)
そこで、私の質問は、Amazon の EMR で pig スクリプトを実行するときに、分散キャッシュ ファイルをどのように使用すればよいですか?
編集: pig-0.9 とは異なり、pig-0.6 には getCacheFiles() という関数がないことがわかりました。Amazon は pig-0.6 をサポートしていないため、0.6 で分散キャッシュを機能させる別の方法を見つける必要があります。
apache - Hadoop コードの調査
ブラックボックスよりも Hadoop について知りたかったのです。Hadoop コード自体を調査したかったのです。トランク以外からバンドルをダウンロードするにはどうすればよいですか? どこから始めればよいですか? どんな助けでも本当に役に立ちます ありがとうShujaat
mysql - ハイブから mysql @ AWS にデータを取得していますか?
私は Sqoop を使いたいと思っていますが、これだけのために Cloudera スタック @ AWS を ElasticMapReduce (私が本当に気に入っています) で実行する価値があるとは思いません。
私の現在の考えは、@ S3 に格納された外部テーブルに移動する必要があるデータを書き、それを mysql にインポートするスクリプトを書くことです。Amazon には SimpleDB に関するものがいくつかあります ( example ) が、そのルートについてもよくわかりません。S3 に存在するデータで問題ありませんが、誰かがより良いアイデアを持っているかどうか疑問に思っています。
ありがとう!
amazon-web-services - Karmasphere Analytics 用の Amazon の elastic-mapreduce Ruby クライアントで動作する --supported-products オプションを取得できない
AWS で Karmaspere Analytics を使用しようとしています。このページでは、Ruby クライアントで --supported-products を使用するように指示されています。ただし、コマンドを実行すると (そのページで入力したとおりに)、「エラー: 無効なオプション: --supported-products」というエラーが表示されます。
http://aws.amazon.com/developertools/2264からダウンロードしたバージョン 2010-11-11 を使用しています (このページには、2011 年 8 月 11 日に最後に更新されたと書かれていますが、./elastic-mapreduce --version I を実行しています)出力として「バージョン 2010-11-11」を取得します)
ありがとう!
hadoop - MapReduce プログラミング モデルを使用して 2 つの大規模なデータセットを比較する
かなり大きなデータ セットが 2 つあるとします。1 つ目は「Base」と呼ばれ、2 億行のタブ区切り行が含まれ、2 つ目は 1000 万行の同様のデータがタブ区切り行である「MatchSet」と呼ばれます。
次に、Match(row1, row2) という任意の関数もあり、Match() には基本的に、row1 (MatchSet から) を見て、それを row2 (Base から) と比較し、何らかの方法で類似しているかどうかを判断するためのヒューリスティックが含まれているとします。 .
Match() で実装されたルールがカスタムで複雑なルールであり、単純な文字列の一致ではなく、独自のメソッドが含まれているとしましょう。今のところ、Match(row1,row2) は疑似コードで記述されているため、別の言語での実装は問題ではありません (ただし、現在は C++ で実装されています)。
線形モデル、つまり 1 つの巨大なプロセッサで実行されるプログラムでは、MatchSet から各行を読み取り、Base から各行を読み取り、Match() を使用して一方を他方と比較し、一致統計を書き出します。たとえば、MatchSet からの X レコードは強い一致、MatchSet からの Y レコードは弱い一致、MatchSet からの Z レコードは一致しないなどをキャプチャできます。また、検査のために、強い/弱い/非値を別のファイルに書き込みます。別名、ある種のネストされたループ:
これらの比較をバッチ ジョブとして短時間で実行する方法として、Hadoop ストリーミングを検討し始めました。ただし、このタイプの問題のマップ削減パラダイムについて理解するのに少し苦労しています。
この時点で、hadoop から単一の入力を取得し、マッピング関数を使用してデータをクランチし、結果を出力して削減する方法をかなり明確に理解しています。ただし、2 セットのレコードを比較する「入れ子になったループ」アプローチは、私を少し混乱させます。
私が解決策に最も近いのは、基本的に、2億個のレコード間で1,000万個のレコードを並行して比較する必要があるため、2億/ nノード*ノードあたり1,000万回の反復です。それはこれを行うための最も効率的な方法ですか?