ストリーミング データ分析 (「バッチ」データ分析とは対照的に) は、通常は無限のデータ アイテム ストリーム (イベントと呼ばれることが多い)の継続的な分析を指します。
ストリーミング アプリケーションの特徴
ストリーム データ処理アプリケーションは、通常、次の点で特徴付けられます。
ストリーミング アプリケーションは、非常に長い時間にわたって継続的に実行され、イベントが発生するとすぐに消費して処理します。対照的に。バッチ アプリケーションは、ファイルまたはデータベースにデータを収集し、後で処理します。
ストリーミング アプリケーションは、結果の遅延に頻繁に関心を持ちます。待ち時間は、イベントの作成と、分析アプリケーションがそのイベントを考慮に入れる時点との間の遅延です。
ストリームは無限であるため、多くの計算ではストリーム全体ではなく、ストリーム上の「ウィンドウ」を参照できません。ウィンドウは、ストリーム イベントのサブシーケンス (最後の 5 分間など) のビューです。実際のウィンドウ統計の例として、「過去 3 日間の平均株価」があります。
ストリーミング アプリケーションでは、多くの場合、イベントの時間が特別な役割を果たします。時間の順序に関してイベントを解釈することは非常に一般的です。特定のバッチ アプリケーションも同様にそれを行う場合がありますが、それはコア コンセプトではありません。
ストリーミング アプリケーションの例
ストリームデータ処理アプリケーションの代表的な例は、
不正検出: アプリケーションは、トランザクションが以前に観察された動作に適合するかどうかを判断しようとします。そうでない場合、トランザクションは不正使用の試みを示している可能性があります。通常、非常にレイテンシが重要なアプリケーションです。
異常検出: ストリーミング アプリケーションは、監視するイベントの統計モデルを構築します。外れ値は異常を示し、アラートをトリガーする場合があります。センサー データは、異常を分析したいイベントのソースの 1 つになる場合があります。
オンライン レコメンダー: Web ショップにアクセスしたユーザーの過去の行動に関する情報があまりない場合、ユーザーがページを移動して記事を探索する際の行動から学び、最初のレコメンデーションを直接生成し始めるのは興味深いことです。
最新のデータ ウェアハウジング: データ ウェアハウジング インフラストラクチャをストリーミング アプリケーションとしてモデル化する方法に関する興味深い記事があります。イベント ストリームはデータベースへの一連の変更であり、ストリーミング アプリケーションはさまざまなウェアハウスを特殊な「集計ビュー」として計算します。イベントストリームの。
他にもたくさんあります...