mapreduce - mapreduce は、共有タプル空間 (例: データベース) で効率的に作業できますか?

Question

データベースまたは共有キー値ストアに対して mapreduce クエリを実行するのが効率的かどうか疑問に思っているので、これを尋ねています。

たとえば、インターネットをインデックス化し、さまざまな Web ページのすべての用語をカウントする Web トローラーを実装するには、バックエンドとしてデータベースを使用して効率的に実行できますか?

score 1 · Accepted Answer

もちろん。HBase およびその他の NoSql ストアは、このタスクに適しています。

MapReduce での HBase の使用に関する一般的な概要については、この記事を参照してください。

HBase は Hadoop データベースです。ビッグデータへのランダムなリアルタイムの読み取り/書き込みアクセスが必要な場合に使用します。このプロジェクトの目標は、非常に大きなテーブル (数十億行 X 数百万列) をコモディティハードウェアのクラスター上にホストすることです。

HBase は、Google の Bigtable: A Distributed Storage System for Structured Data (構造化データのための分散ストレージシステム) をモデルにした、オープンソースの分散型の列指向ストアです。Bigtable が Google ファイルシステムによって提供される分散データストレージを活用するのと同様に、HBase は Hadoop 上で Bigtable のような機能を提供します。HBase には以下が含まれます。

•<strong> HBase テーブルを使用して Hadoop MapReduce ジョブをサポートするための便利な基本クラス

•サーバーサイドスキャンを介して述語プッシュダウンをクエリし、フィルターを取得します

•リアルタイムクエリの最適化

•高パフォーマンスのThriftゲートウェイ •XML、Protobuf、およびバイナリデータエンコーディングオプションをサポートするRESTフルWebサービスゲートウェイ

• ソースモジュールとシンクモジュールのカスケード接続

•拡張可能な jruby ベース (JIRB) シェル

• Hadoop メトリクスサブシステムを介してメトリクスをファイルまたは Ganglia にエクスポートするためのサポート。またはJMX経由

mapreduce - mapreduce は、共有タプル空間 (例: データベース) で効率的に作業できますか?

1 に答える 1

Related

Reference