json - BI と Hadoop の両方で JSON アクティビティストリームを処理するための適切なツールはどれですか?

Question

多くのシステムがあり、そのほとんどは JSON アクティビティストリーム [1] を使用してデータを生成できます (または強制的にそうすることができます)。このデータを分析に使用したいと考えています。

OLAP で使用するために従来の SQL データマートを使用し、生の JSON データを Hadoop にダンプしてバッチ mapreduce ジョブを実行したいと考えています。

私は Kafka、Flume、Scribe、S4、Storm、およびその他の多くのツールについて調べてきましたが、目の前のタスクにどれが最適かはまだわかりません。これらは、ログファイルデータまたはアクティビティストリームのリアルタイム処理に焦点を当てているようですが、私はアクティビティストリームで ETL を行うことにもっと興味があると思います。

私が考えているセットアップのタイプは、関心のあるすべてのストリーム (URL、パラメーター、資格情報) の構成を提供し、ツールが定期的にそれらをポーリングし、出力を HDFS にダンプし、フックも備えている場所です。データマートに挿入するために JSON を処理および変換します。

既存のオープンソースツールの中で、このケースに特に適しているものはありますか?

(規模に関しては、最大 30,000 人のユーザーが最大 10 のシステムと対話することを期待しています。同時にではないため、実際には「ビッグデータ」ではありませんが、些細なことでもありません。)

ありがとう！

[1] http://activitystrea.ms/

json - BI と Hadoop の両方で JSON アクティビティ ストリームを処理するための適切なツールはどれですか?

1 に答える 1

Related

Reference

json - BI と Hadoop の両方で JSON アクティビティストリームを処理するための適切なツールはどれですか?