問題タブ [mapreduce]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
aggregate - Elastic MapReduce で利用可能なレデューサー
私はこれを正しい方法で尋ねていることを願っています。私はElastic MapReduceの使い方を学んでおり、「ストリーミング」ジョブフローで使用できる「集約」リデューサーへの参照を数多く見てきました。
Amazon の「Introduction to Amazon Elastic MapReduce」PDF には、「Amazon Elastic MapReduce には、aggregrate と呼ばれるデフォルトのレデューサーがあります」と記載されています。
私が知りたいのは、他に利用可能なデフォルトのレデューサーはありますか?
独自のレデューサーを作成できることは理解していますが、既存のものを作成して「ホイールを再発明」することはしたくありません。私のホイールは元のホイールほど良くないと確信しているためです。
streaming - AWS での MapReduce の Hadoop または Hadoop ストリーミング
AWS で実行する mapreduce プロジェクトを開始しようとしていますが、Java または C++ のいずれかを使用する選択肢が提示されました。
Java でプロジェクトを作成すると、より多くの機能を利用できるようになることは理解していますが、Hadoop ストリーミングを使用して C++ でそれを実現することもできます。
念のために言っておきますが、私はどちらの言語のバックグラウンドもほとんどありません。同様のプロジェクトが C++ で行われており、コードを利用できます。
私の質問: この追加機能は AWS から利用できますか? それとも、クラウドをより詳細に制御できる場合にのみ関連しますか? ある言語または別の言語でより適切に機能する Hadoop 用のプラグインの入手可能性など、決定を下すために心に留めておくべきことは他にありますか?
前もって感謝します
amazon-web-services - Amazon MapReduce のリデューサー ジョブなし
AWS 経由でマッパーのみのジョブ (ストリーミング ジョブ) を作成しようとしています。reducer フィールドは必須なので、ダミーの実行可能ファイルを指定し、 -jobconf mapred.map.tasks=0 を Extra Args ボックスに追加します。私がインストールした Hadoop 環境 (バージョン 0.20) では、reducer ジョブは起動しませんが、AWS ではダミーの実行可能ファイルが起動して失敗します。
レデューサーなし/マッパーのみのジョブを AWS で実行するにはどうすればよいですか?
eclipse - EclipseでHadoopMapReduceを使用する際のエラー
Hadoopを使用してEclipseでMapReduceプログラムを実行すると、以下のエラーが発生しました。
パスを変更する必要がありますが、私にはわかりません。
何か案が?
db2 - Netezza、Teradata、DB2 Parallel/Enterprise、... vs Hadoop など?
現在、Hadoop のような Map/Reduce ソリューションの上に、データ ウェアハウジング/クエリ インフラストラクチャを構築することを検討しています。
しかし、すべての M/R 作業は、RDBMS 関係者が過去 20 年間に並列 SQL データベースで解決してきたことを繰り返しているだけに過ぎないと思います。並列 SQL 実装は、M/R と同様に、ノード間で読み取りと書き込みをスケーリングしますが、通常のデータベース (SQL、既存の統合ライブラリなど) の機能も既に含まれています。
問題は、これらの企業の顧客がオンラインであまり投稿していないように見えることです。それで、ここにいる誰かがそのような種類のソリューションの経験があり、洞察やリンクを教えてくれますか?
hadoop - Hadoop MapReduce のエラー
Hadoop を使用して mapreduce プログラムを実行すると、次のエラーが発生します。
このエラーは何ですか?
algorithm - データのストリーミングとトピックの識別のためのデータ構造/アルゴリズム
ストリーミングデータで以下の情報を特定するための効果的なアルゴリズム/データ構造を知りたいです。
Twitterのようなリアルタイムのストリーミングデータを考えてみましょう。実際のデータを保存するのではなく、主に以下のクエリに関心があります。
実際のデータでクエリを実行する必要がありますが、重複は必要ありません。
完全なデータを保存することに興味がないので、重複する投稿を特定するのは難しいでしょう。ただし、すべての投稿をハッシュして確認することはできます。しかし、重複している投稿も特定したいと思います。どうすればこれを達成できますか。
ユーザーが話し合っている上位kのトピックを特定します。
ユーザーが議論している上位のトピックを特定したいと思います。ツイッターで見られるような最高頻度の単語は欲しくない。代わりに、最も頻繁に使用される単語の高レベルのトピック名を付けたいと思います。
システムをリアルタイムにしたいと思います。つまり、私のシステムはあらゆる量のトラフィックを処理できるはずです。
マップリデュースアプローチを考えることはできますが、同期の問題を処理する方法がわかりません。たとえば、重複する投稿は異なるノードに到達する可能性があり、両方がそれらをインデックスに保存する可能性があります。
典型的なニュースソースでは、データ内のストップワードを削除します。私のシステムでは、幅広いトピックで最も頻繁に使用される単語を特定して、ストップワードリストを更新したいと思います。
これを達成するための効果的なアルゴリズム/データ構造は何でしょうか。
データ内の興味深いパターンを取得するために、トピックを一定期間保存したいと思います。たとえば、金曜日の夜は誰もが映画に行きたがっています。このデータを保存するための効率的な方法は何でしょうか。
Hadoop分散ファイルシステムに保存することを考えていますが、時間の経過とともにこれらのインデックスが大きくなり、I/Oが大きなボトルネックになります。
世界中のツイートからの多言語データを検討してください。地理的領域全体で議論されている同様のトピックを特定するにはどうすればよいですか?
ここには2つの問題があります。1つは、使用されている言語を識別することです。ツイートした人に基づいて識別できます。ただし、この情報はユーザーのプライバシーに影響を与える可能性があります。他のアイデアは、トレーニングアルゴリズムを介してそれを実行することができます。このために現在行われている最良の方法は何ですか。他の問題は、実際に辞書で単語を検索し、それを英語などの一般的な中間言語に関連付けることです。同じ単語が異なるコンテストで使用されているように、語義の曖昧性解消を処理する方法。
単語の境界を特定する
1つの可能性は、ある種のトレーニングアルゴリズムを使用することです。しかし、最善のアプローチは何ですか。これは、実際の文に基づいて単語の境界を識別できるため、語義の曖昧性解消に似ています。
具体的な実装ではなく、プロトタイプの開発とシステムの評価を考えています。リアルタイムのツイッターデータを廃棄することは不可能だと思います。このアプローチは、オンラインで無料で入手できるいくつかのデータでテストできると思います。このデータを入手できるアイデア。
フィードバックをいただければ幸いです。
御時間ありがとうございます。
-バラ
java - JobConf を使用せずに Hadoop ジョブを実行する
JobConf
非推奨のクラス を使用しない Hadoop ジョブを送信する例が 1 つも見つかりません。JobClient
は廃止されていませんが、パラメータを取るメソッドのみをサポートしていJobConf
ます。
Configuration
クラスのみを使用して(ではなくJobConf
)Hadoopマップ/リデュースジョブを送信し、mapreduce.lib.input
代わりにパッケージを使用するJavaコードの例を教えてくださいmapred.input
。
functional-programming - 関数型プログラミングにおける MapReduce と map-reduce の組み合わせの違い
http://en.wikipedia.org/wiki/MapReduceでmapreduce を読み、多くの「ドキュメント」で「単語」の数を取得する方法の例を理解しました。ただし、次の行がわかりませんでした。
したがって、MapReduce フレームワークは (キー、値) ペアのリストを値のリストに変換します。この動作は、関数型プログラミングの map と reduce の組み合わせとは異なります。これは、任意の値のリストを受け入れ、map によって返されるすべての値を組み合わせた 1 つの値を返します。
誰かがもう一度違いを詳しく説明できますか (MapReduce フレームワーク VS マップとリデュースの組み合わせ)? 特に、reduce 関数型プログラミングは何をするのでしょうか?
どうもありがとう。