問題タブ [mapreduce]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
erlang - Riak で MapReduce
単一のRiakノードで実行できるRiakのmapreduceのサンプルコードはありますか?
amazon - Amazon Mapreduce で実行される pig スクリプトの STREAM キーワード
別のpythonプログラムをアクティブにする豚のスクリプトがあります。自分の Hadoop 環境では実行できましたが、Amazon map reduce WS でスクリプトを実行すると必ず失敗します。
ログは言う:
org.apache.pig.backend.executionengine.ExecException: エラー 2090: 削減計画の処理中にエラーを受け取りました: '' 終了ステータスで失敗しました: org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce で 127。 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.processOnePackageOutput(PigMapReduce.java:288) の runPipeline(PigMapReduce.java:347) org.apache.pig.backend.hadoop.executionengine.mapReduceLayer. PigMapReduce$Reduce.reduce(PigMapReduce.java:260) org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.reduce(PigMapReduce.java:142) org.apache.hadoop.mapred.ReduceTask. run(ReduceTask.java:321) at org.apache.hadoop.mapred.TaskTracker$Child.main(TaskTracker.java:2216)
何か案が?
hadoop - あるファイルから別のファイルの単語を検索する Hadoop
あるファイルから単語を読み取り、別のファイルを検索できる Hadoop アプリケーションを構築したいと考えています。
単語が存在する場合 - 1 つの出力ファイルに書き込む必要がある単語が存在しない場合 - 別の出力ファイルに書き込む必要がある
Hadoop でいくつかの例を試しました。2つの質問があります
2 つのファイルはそれぞれ約 200 MB です。別のファイルのすべての単語をチェックすると、メモリ不足が発生する可能性があります。これを行う別の方法はありますか?
Hadoop の reduce フェーズの出力は 1 つのファイルにしか書き込まれないため、異なるファイルにデータを書き込む方法。データを異なる出力ファイルに書き込むために、reduce フェーズのフィルターを使用することは可能ですか?
ありがとうございました。
algorithm - コーパスでの効率的な検索
数十億語のコーパスで検索したい数百万語があります。これを行うための効率的な方法は何でしょうか。
私はトライを考えていますが、トライのオープンソース実装は利用できますか?
ありがとうございました
- 更新しました -
正確に何が必要かについて、もう少し詳しく説明します。
ニュースソースをクロールし、単語の頻度に基づいて人気のある単語を取得するシステムがあります。百万の言葉があるかもしれません。
データは次のようになります。
Word1 Frequency1 Word2 Frequency2(タブ区切り)
また、上記の形式のデータを含む別のソースから最も人気のある単語(10億)を入手しました。
これが私が出力として取得したいものです。
- 両方の情報源に共通する言葉
- 単語は私たちのソースにのみ存在し、参照ソースには存在しません。
- 単語は参照ソースにのみ存在し、ソースには存在しません。
上記の情報に対してcomm(bashコマンド)を使用できるのは単語だけです。commを使用して、両方の列ではなく1つの列とのみ比較する方法がわかりません。
システムはスケーラブルである必要があり、これを毎日実行して結果を比較したいと思います。また、おおよその一致を取得したいと思います。
だから、私はマップリデュースの仕事を書くことを考えています。以下のようにマップを作成して関数を減らす予定ですが、質問はほとんどありません。
2つの質問があります。マップリデュースでは、2つのファイルを含むディレクトリを入力として指定できます。単語を読んでいるファイル名を取得する方法がわかりません。この情報を取得する方法は?削減フェーズはpart-xxxxxという名前のデフォルトファイルにのみ自動的に書き込むため、さまざまな出力ファイルに書き込むにはどうすればよいですか。さまざまな出力ファイルに書き込む方法。
これを読んでくれてありがとう。
hadoop - Hadoopとダンボは初めてですが、これらの操作を正しく順序付ける方法は?
次のログ ファイル形式を検討してください。
ダンボを使用して、Hadoop クラスターの各データ行の平均値頻度 (AVF)を計算します。m 個の属性を持つデータ ポイントの AVF は、次のように定義されます。
したがって、最初の行では、avf = (1/3)*(1+2+1) ~= 1.33 です。外れ値は、低い AVF によって識別されます。
プログラミングの問題
次の疑似/Python コードがあります。
問題は、一連のデータ ポイントをmap1との両方にプラグインし、map2map2で中間ハッシュを使用する方法です。上記のようにグローバルに定義すると、MapReduce の概念に反するように思えますH。H
parallel-processing - 同じデータセットへのクエリへのストリームを処理する場合の効率的なMapReduce
大規模な静的データセットがあり、それに適用する関数があります。
fはreduce(map(f、dataset))の形式なので、MapReduceスケルトンを使用します。ただし、リクエストごとにデータを分散させたくありません(理想的には、fを高速化するためにインデックス作成を利用したいと思います)。この一般的なケースに対処するMapReduceの実装はありますか?
IterativeMapReduceを調べたところ、おそらくそれでうまくいくかもしれませんが、少し異なるケースに対処しているようで、コードはまだ利用できません。
java - Java で使用する Map-Reduce ライブラリおよび/またはプラットフォーム
私は最近、クラウド コンピューティングとmap-reduceテクニックについて読んだり聞いたりしていました。いくつかのアルゴリズムをいじって、その分野での実践的な経験を得て、現在何が可能かを確認することを考えています.
これが私がやりたいことです: マップ削減機能が組み込まれている、またはサポートが組み込まれていないパブリック クラウド プラットフォーム (Google App Engine、Google Map Reduce、Amazon ECS、Amazon Map Reduce など) を使用したいと考えています。 、追加の map reduce Java ライブラリ (Hadoop、Hive など) を使用し、いくつかのアルゴリズムを実装/展開します。
その分野で経験を積んでいて、始めるのに適したポイントを示している人はいますか? または、実際にうまく機能している組み合わせをいくつか挙げてください。
前もって感謝します!
java - Hadoop/MapReduce で一致する行を見つける
私は Hadoop をいじっており、Ubuntu で 2 ノード クラスターをセットアップしました。WordCount の例は問題なく動作します。
ここで、いくつかのログ データを分析するために独自の MapReduce プログラムを作成したいと思います (主な理由: シンプルに見え、データが豊富にあるため)
ログの各行の形式は次のとおりです
イベントは、INIT、START、STOP、ERROR などです。私が最も興味を持っているのは、同じ UUID の START イベントと STOP イベントの間の経過時間です。
たとえば、私のログには次のようなエントリが含まれています
私の現在の線形プログラムは、ファイルを読み取り、メモリ内の開始イベントを記憶し、対応する終了イベントが見つかったら経過時間をファイルに書き込みます (他のイベントを含む行は現在無視され、エラー イベントは UUID を無効にし、も無視されます) 1
これを Hadoop/MapReduce プログラムに移植したいと考えています。しかし、エントリのマッチングを行う方法がわかりません。ファイルの分割/トークン化は簡単で、一致するものを見つけることは Reduce-Class になると思います。しかし、それはどのように見えるでしょうか?MapReduce ジョブで数学エントリを見つけるにはどうすればよいですか?
私の主な焦点は、Hadopo/MapReduce を理解することです。Pig やその他の Apache プログラムへのリンクは大歓迎ですが、純粋な Hadoop/MapReduce でこの問題を解決したいと考えています。ありがとうございました。
1) ログは実行中のアプリケーションから取得されるため、一部の開始イベントには対応する終了イベントがまだない可能性があり、ログファイルの分割により、開始イベントのない終了イベントが発生します。
analysis - テラバイトのデータのMapReduceアルゴリズム?
この質問には、「正しい」答えは1つもありません。
クラスター上でテラバイトのデータに対してMapReduceアルゴリズムを実行することに興味があります。
上記のアルゴリズムの実行時間についてもっと知りたいです。
どんな本を読むべきですか?
MapReduceクラスターのセットアップや標準アルゴリズムの実行には興味がありません。厳密な理論的処理または実行時間が必要です。
編集:問題は、マップが変更の実行時間を短縮することではありません。問題は、ほとんどのアルゴリズムがマップリデュースフレームワークにうまく分散しないことです。マップリデュースフレームワークで実行されるアルゴリズムに興味があります。
hadoop - このアーキテクチャはHadoopMRで可能ですか?
Hadoop MapReduceで次のアーキテクチャが可能ですか?
分散Key-Valueストアが使用されます(HBase)。したがって、値とともに、値に関連付けられたタイムスタンプがあります。Map&Reduceタスクは繰り返し実行されます。マップは、各反復で、前の反復でストアに追加された値(おそらく最新のタイムスタンプを持つ値)を取り込む必要があります。Reduceは、Mapの出力と、reduceが現在の反復で処理する必要のあるキーと一致するキーを持つストアからのペアを取り込む必要があります。reduceの出力はストアに送られます。
これが可能な場合は、通常の操作の代わりに上記の操作が行われるように、どのクラス(たとえば、InputFormat、Reduceのrun())を拡張する必要があります。これが不可能な場合、同じことを達成するための代替手段はありますか?