数十億行のログをリアルタイムで分析して上位 k 人のユーザー パターンを把握したい場合、データ量が膨大なため、複数のサーバーがユーザーの要求に対応し、それぞれのマシンにデータを記録します。私はそれをやるべきですか?
上記のタスクを達成するのに役立つ同じもののオープンソース実装を探しているわけではありませんが、各マシンからログを集約するアプローチ (アルゴリズムでローカル集約が可能である場合は必ずしも必要ではない場合があります) を行います。特定の制約に基づいて上位のいくつかのログを取得するための完全なセットの分析。
どのようなデータ構造を使用して操作する必要があり、それについてどのようなアプローチをとるべきか? これらのログは継続的に生成されており、リアルタイムで結果を更新しようとしていることにご注意ください。