まず、Hive と Hadoop (および一般的なビッグ データ) について学んでいることを明確にしたかったので、適切な語彙が不足していることをお許しください。
私は大規模な (少なくとも私にとっては) プロジェクトに着手しています。このプロジェクトでは、これまで主に MySQL を使用していたため、これまで使用していなかった膨大な量のデータを処理する必要があります。
このプロジェクトでは、一連のセンサーが 1 時間に 5 回 (1 日 15.000.000.000) 約 125.000.000 のデータ ポイントを生成します。
Hadoop MapReduce と Hive を使用してデータのクエリと分析を行う方法があることは理解しています。
私が直面している問題は、Hive がほとんど「cron ジョブ」のように実行され、何時間もかかり、別のインフラストラクチャを必要とする可能性があるリアルタイム クエリでは実行されないことを理解できたことです。
リアルタイムでクエリする必要があるデータはせいぜい約 1.000.000.000 行になるため、Hive クエリの結果に基づいて MySQL テーブルを作成することを考えましたが、これが正しい方法なのか、そうすべきなのか疑問に思っていました。他の技術を調べてください。
ビッグ データのリアルタイム クエリ用に特別に作成された、研究すべきテクノロジはありますか?
どんなヒントでも大歓迎です!