1

最近、Couchbase によるウェビナーで、Hadoop は大きなログ ファイルの処理に使用され、Couchbase はそれをアプリケーション層に提示するために使用されると述べました。彼らは、Couchbase と Hadoop の map と reduce は異なり、前述のそれぞれのユース ケースに適していると主張しました。大量のログファイルを処理するために、Couchbase map reduce を使用するつもりでした。2つのマップ削減の正確な違いを明確にしてください。大きなログ ファイルの処理により適した Hadoop の機能はありますか?

ありがとう...

4

2 に答える 2

3

カウチベースはインクリメンタル マップ/リデュースを使用し、アイテムの更新または削除に必要なすべてのデータ セットをスキャンしないという事実の主な違いです。もう 1 つの違いは、「大」の大きさです。数百ギガバイトのログを一度に処理する必要がある場合、couchbase は最良の選択ではありません。

于 2012-05-13T14:16:20.273 に答える
2

Couchbase は、多くの NoSQL データ ストレージ アプリケーションの 1 つです。データはキーと値のペアで保存され、キーはすばやく検索できるようにインデックスが付けられます。

逆に、hadoop のデータは (ファイル名以外は) インデックス化されず、HDFS のファイルから特定の値を取得するのは非常に遅く、多くのファイルのスキャンが必要になる可能性があります。

通常、Hadoop mapreduce などを使用して大きなファイルを処理し、NoSQL ストア (Couchbase など) を更新/設定します。

大量のデータを処理するために NoSQL データストアを使用することは、MapReduce を使用して同じジョブを実行するよりもおそらく効率が悪いでしょう。しかし、NoSQL データストアは、MapReduce ジョブ (初期化に数十秒、実行に数分から数時間かかる場合がある) よりもかなり効率的に Web レイヤーを処理できます。

于 2012-05-13T14:13:21.350 に答える