java - テラバイトのデータをリアルタイムで処理するには、どのテクノロジーを使用する必要がありますか?

Question

マイニングが必要な MB/TB のデータを生成する Web サイトがあります。テラバイトのデータをリアルタイムで処理するには、どのテクノロジーを使用する必要がありますか? Hadoop 、Cassandra はバッチ処理に適しています。しかし、リアルタイムではありません。リアルタイム; 発生中のデータを処理し、それに関するレポートを表示することを意味します。アイデアや提案はありますか？

score 2 · Accepted Answer

Storm プロジェクトを調べましたか? Twitterで使われています。リアルタイム Hadoop のようなものです。

ストリーム処理プロジェクトの 1 つに使用します。それは素晴らしいです。ドキュメンテーション、開発、展開、スケーラビリティが素晴らしい。最近、20K メッセージ/秒を処理 (Cassandra への保存、変更とブロードキャスト、平均の計算) で実行しましたが、確実に機能し、魔法のように機能しました。間違いなく試してみる価値があります。メーリングリストはとてもフレンドリーで、質問するために使うことはめったにありませんでした。

score 1 · Accepted Answer

1 MB のデータを処理できるのと同じテクノロジで TB のデータを処理できますが、時間がかかります。

「リアルタイム」でデータをどのように使用するつもりなのかわかりません。現実の世界を意味していると思います。

簡単に言うと、人間が消費できるようにデータを要約する必要があります。一度にキロバイトまたはメガバイトの情報しかユーザーに提示できません。

一度にすべてのデータをロードする必要がある場合は、メモリマップトファイルを使用すると、これがより効率的になります。これは、毎秒数千万のレコードを処理するために使用できます。

score 0 · Accepted Answer

このページを確認してください: http://hadoop.apache.org/

分散環境で大量のデータを処理するための関連するフレームワーク/ライブラリがリストされています。

java - テラバイトのデータをリアルタイムで処理するには、どのテクノロジーを使用する必要がありますか?

3 に答える 3

Related

Reference