hadoop - 大規模な動的データセットに対する分析クエリの実行

Question

私が所有するシステムに大量の受信データセットがあるという要件があります。

このセット内のデータの 1 つの単位には、不変の属性と状態のセットが関連付けられています。状態は動的で、いつでも変更できます。

要件は次のとおりです-

大規模なデータセットでは、状態が変化する可能性があります。更新は高速である必要があります。
さまざまな属性にピボットされたデータを集約できるはずです。
理想的には、個々のデータユニットを集計結果に関連付ける方法が必要です。つまり、特定の集計を生成した特定のトランザクションにドリルダウンしたいと考えています。(集約が実行された後にデータユニットの状態が変化するなど、ここでの競合状態は認識していますが、これは予想されることです)。
すべての集計は時間ベースです。つまり、1 日、2 日、1 週間、1 か月などのピボット y での x の合計です。

これらのユースケースを満たすためにさまざまなテクノロジーを評価しており、あなたの提案を聞きたいと思っています。分析/集計のユースケースに適合する Hive/Pig を調べました。ただし、いつでもシステムに大量の更新が入る可能性があることを懸念しています。インデックス付きデータベース (sql または nosql) と比較した場合、これが HDFS ファイルでどのように機能するかはわかりません。

score 0 · Accepted Answer

Flexviewsを見ることを検討してください。MySQL のインクリメンタルリフレッシュ可能なマテリアライズドビューの作成をサポートします。マテリアライズドビューは、変更されたデータで定期的に更新されるクエリのスナップショットのようなものです。マテリアライズドビューを使用して、異なるサマリーテーブルの複数の属性を要約し、これらのビューのトランザクションの一貫性を保つことができます。slideshare.netで機能を説明するいくつかのスライドを見つけることができます。

InnoDB および MySQL パーティショニングと組み合わせて使用できるShard-Queryもあり、多数のマシンへのデータの分散をサポートします。これにより、高い更新レートが満たされ、クエリの並列処理が提供されて高速な集計が行われます。

もちろん、2つを組み合わせることもできます。

score 0 · Accepted Answer

おそらく、環境内の実際のシナリオでストレステストを行うことによってのみ、最適なソリューションにたどり着くことができますが、いくつかの提案があります。まず、書き込み速度がボトルネックの場合は、不変データとは別に、変化する状態を追加専用ストアに書き込み、クエリのためにデータを再度結合することが理にかなっている場合があります。追加のみの書き込み (ログファイルなど) は、主にディスクシークを最小限に抑えるため、既存のレコードを更新するよりも高速です。この戦略は、クエリ中にデータが変更されるという問題にも役立ちます。時間内の「スナップショット」に対してクエリを実行できます。たとえば、HBase はタイムスタンプ付きの複数の更新をレコードに保持します。(数は設定可能です。)

これは、Multiversion Concurrency Control - MVCC と呼ばれる永続化戦略の特殊なケースです。あなたの説明に基づいて、更新が同時に行われている間でも、MVCC はおそらくクエリを実行し、一貫した状態情報を返すための最も重要な基本戦略です。

もちろん、このように分割されたデータを結合すると、クエリのパフォーマンスが低下します。そのため、クエリのパフォーマンスがより重要な場合は、状態の変化とともに不変データが繰り返されるレコード全体を書き込むことを検討してください。トレードオフとして、それはより多くのスペースを消費します。

hadoop - 大規模な動的データ セットに対する分析クエリの実行

2 に答える 2

Related

Reference

hadoop - 大規模な動的データセットに対する分析クエリの実行