2

多くのシステムがあり、そのほとんどは JSON アクティビティ ストリーム [1] を使用してデータを生成できます (または強制的にそうすることができます)。このデータを分析に使用したいと考えています。

OLAP で使用するために従来の SQL データマートを使用し、生の JSON データを Hadoop にダンプしてバッチ mapreduce ジョブを実行したいと考えています。

私は Kafka、Flume、Scribe、S4、Storm、およびその他の多くのツールについて調べてきましたが、目の前のタスクにどれが最適かはまだわかりません。これらは、ログファイル データまたはアクティビティ ストリームのリアルタイム処理に焦点を当てているようですが、私はアクティビティ ストリームで ETL を行うことにもっと興味があると思います。

私が考えているセットアップのタイプは、関心のあるすべてのストリーム (URL、パラメーター、資格情報) の構成を提供し、ツールが定期的にそれらをポーリングし、出力を HDFS にダンプし、フックも備えている場所です。データマートに挿入するために JSON を処理および変換します。

既存のオープンソース ツールの中で、このケースに特に適しているものはありますか?

(規模に関しては、最大 30,000 人のユーザーが最大 10 のシステムと対話することを期待しています。同時にではないため、実際には「ビッグデータ」ではありませんが、些細なことでもありません。)

ありがとう!

[1] http://activitystrea.ms/

4

1 に答える 1