HBaseを使用してログ(Webログデータ)を保存することを考えています。各ログには約20の異なる値(たとえば列)があり、それらの列に基づいて結果をフィルター処理するクエリを実行したいと思います。
私の最初のアイデアは、ログの各フィールドの値である各列の下に各ログ(セル)を複数回保存することでした。これにより、データサイズが約20倍になりますが、パフォーマンスが大幅に向上すると思います。行キーは、ソースIDであるプレフィックス付きのタイムスタンプになります。
各ソースは約40〜100Mのログ行を生成します(数万のソースが存在する可能性があります)。
また、おそらく10秒未満の低遅延が必要です(したがって、Hiveのようなソリューションは現在オプションではありません)
これは正しいスキーマ設計だと思いますか?そうでなければ、あなたにとって正しいものだと思いますか、それとも私は何か他のものを使うべきですか(何)?
すべての回答をありがとう。