データベースまたは共有キー値ストアに対して mapreduce クエリを実行するのが効率的かどうか疑問に思っているので、これを尋ねています。
たとえば、インターネットをインデックス化し、さまざまな Web ページのすべての用語をカウントする Web トローラーを実装するには、バックエンドとしてデータベースを使用して効率的に実行できますか?
データベースまたは共有キー値ストアに対して mapreduce クエリを実行するのが効率的かどうか疑問に思っているので、これを尋ねています。
たとえば、インターネットをインデックス化し、さまざまな Web ページのすべての用語をカウントする Web トローラーを実装するには、バックエンドとしてデータベースを使用して効率的に実行できますか?
もちろん。HBase およびその他の NoSql ストアは、このタスクに適しています。
MapReduce での HBase の使用に関する一般的な概要については、この記事を参照してください。
HBase は Hadoop データベースです。ビッグ データへのランダムなリアルタイムの読み取り/書き込みアクセスが必要な場合に使用します。このプロジェクトの目標は、非常に大きなテーブル (数十億行 X 数百万列) をコモディティ ハードウェアのクラスター上にホストすることです。
HBase は、Google の Bigtable: A Distributed Storage System for Structured Data (構造化データのための分散ストレージ システム) をモデルにした、オープンソースの分散型の列指向ストアです。Bigtable が Google ファイル システムによって提供される分散データ ストレージを活用するのと同様に、HBase は Hadoop 上で Bigtable のような機能を提供します。HBase には以下が含まれます。
•<strong> HBase テーブルを使用して Hadoop MapReduce ジョブをサポートするための便利な基本クラス
•サーバーサイドスキャンを介して述語プッシュダウンをクエリし、フィルターを取得します
•リアルタイムクエリの最適化
•高パフォーマンスのThriftゲートウェイ •XML、Protobuf、およびバイナリ データ エンコーディング オプションをサポートするRESTフルWebサービス ゲートウェイ
• ソース モジュールとシンク モジュールのカスケード接続
•拡張可能な jruby ベース (JIRB) シェル
• Hadoop メトリクス サブシステムを介してメトリクスをファイルまたは Ganglia にエクスポートするためのサポート。またはJMX経由