performance - Hadoop は 50 GB のデータセットから 100 バイトのレコードを処理するのに適していますか?

Question

Hadoop は、アプリケーションの実行を必要としない単純なタスクに適しているかどうかについて質問がありますが、少量のデータの非常に高速な読み取りと書き込みが必要です。

要件は、約 100 ～ 200 バイトの長さのメッセージを、2 つのインデックスを使用して 1 秒あたり 30 のレートで書き込み、同時に、1 秒あたり約 10 のレートで読み取り (これら 2 つのインデックスによる検索) できることです。読み取りクエリは非常に高速である必要があります。クエリごとに最大 100 ～ 200 ミリ秒で、一致するレコードはほとんど返されません。

総データ量は 50 ～ 100 GB に達すると予想され、古いレコードを削除することでこの速度を維持する必要があります (14 日より古いレコードを削除する毎日のタスクのようなもの)。

ご覧のとおり、総データ量はそれほど大きくありませんが、Hadoop の検索速度が必要以上に遅くなる可能性があることを懸念しています。

Hadoop はこれに対する解決策ですか?

ありがとうニック

score 2 · Accepted Answer

Hadoopだけでも、データの多くの小さなセグメントを提供するのは非常に苦手です。ただし、HBaseは、Hadoop上で実行することを目的としたインデックス付きテーブルデータベースのようなシステムです。小さなインデックスファイルを提供するのに優れています。私はそれを解決策として研究したいと思います。

注目すべきもう1つの問題は、HDFSまたはHBaseへのデータのインポートが簡単ではないことです。クラスターの速度が大幅に低下する可能性があるため、Hadoopを選択する場合は、Hadoopがそれらにアクセスできるように75GBをHDFSに取り込む方法も解決する必要があります。

score 0 · Accepted Answer

Sam が指摘したように、HBase は要件を処理できる Hadoop スタックソリューションです。ただし、これらがデータからの唯一の要件である場合は、Hadoop を使用しません。

MongoDB や CouchDB、さらには MySQL や Postgres などの他の NoSQL ソリューションを使用できます。

performance - Hadoop は 50 GB のデータセットから 100 バイトのレコードを処理するのに適していますか?

2 に答える 2

Related

Reference