完璧な世界では、大量のデータを要求したり受け取ったりするのに時間を費やすことなく、すぐに利用できるようになります。しかし、Google や Facebook などの実際のアプリケーションのコンテキストでは、クエリに時間がかかるデータベースに大量のデータが保存されており、意味のある結論/関係を引き出すためにそのデータを処理しようとしています。
SQLで大量のデータを数えてソートするコンテキストでは、データを要約テーブルに保存して処理を回避し、それらのテーブルをcronで更新するだけです。しかし、統計分析とnlpは違うようです。
問題は、データの寿命のどの時点で、実際に統計/nlp/その他の分析を行うべきかということです。