3

次の要件に基づいて、さまざまなシステム ログファイルを分析するという課題に直面しています。

  • 数百のシステム
  • さまざまな形式の毎日の数百万のログ

他の多くの目標に加えて、私の最大の課題は、現在のすべてのシステム ログと部分的に履歴のログ イベントのすべての受信ログのリアルタイム相関分析です。

現在、この課題に対応するために、MongoDB、ElasticSearch、Hadoop などに焦点を当てています。

一方で、Google Bigtable と Bigquery に関する興味深い記事を読みました。

私の質問は、このリアルタイム分析を行うために、Bigtable や Bigquery は検討する価値のあるソリューションですか?

私はこれら 2 つの製品の経験がないので、これらの Google ソリューションが私の要件の代替になるかどうかのヒントを期待しています.

THX & BR 駆動

編集:

広すぎます。作成する必要がある実際の分析を示す必要があります。bigquery は、nosql を使用した自作よりもはるかに安価です

私たちの目標は、現在のログ イベント (または異なるログ イベントの組み合わせ) と他のシステムの動作に対する過去の相互作用に基づいて警告を生成できるシステムを開発することです。

したがって、膨大な量の構造化されていない履歴データに対して、現在のイベントの相関分析を高速に実行できなければなりません。

この要件の説明がおそらく最も具体的なものではないことはわかっていますが、私たちはこのプロジェクトのまさに始まりにいます。したがって、この質問に対する私の目標は、Bigtable / Bigquery を詳しく検討する必要があるかどうかについて、次のチーム ミーティングでいくつかの議論を得ることです。

4

1 に答える 1

3

BigQuery の私のお気に入りの機能の 1 つは、相関を実行する機能です。

これは、私が数年前に書いた BigQuery チュートリアルとの相関関係です: http://nbviewer.ipython.org/gist/fhoffa/6459195

たとえば、フライトの遅延に関して最も相関性の高い空港をランク付けして見つけるには、次のようにします。

SELECT a.departure_state, b.departure_state, corr(a.avg, b.avg) corr, COUNT(*) c
FROM
(SELECT date, departure_state, AVG(departure_delay) avg , COUNT(*) c
FROM [bigquery-samples:airline_ontime_data.flights]  
GROUP BY 1,2 HAVING c > 5  
) a
JOIN
(SELECT date, departure_state , 
AVG(departure_delay) avg, COUNT(*) c FROM [bigquery-samples:airline_ontime_data.flights] 
GROUP BY 1,2 HAVING c > 5  ) b
ON a.date=b.date
WHERE a.departure_state < b.departure_state
GROUP EACH BY 1, 2
HAVING c > 5
ORDER BY corr DESC;

次の 5 分で自分で試してみてください。簡単な入門チュートリアル: https://www.reddit.com/r/bigquery/comments/3dg9le/analyzing_50_billion_wikipedia_pageviews_in_5/

于 2015-09-25T15:35:22.860 に答える