-2

マイニングが必要な MB/TB のデータを生成する Web サイトがあります。テラバイトのデータをリアルタイムで処理するには、どのテクノロジーを使用する必要がありますか? Hadoop 、Cassandra はバッチ処理に適しています。しかし、リアルタイムではありません。リアルタイム; 発生中のデータを処理し、それに関するレポートを表示することを意味します。アイデアや提案はありますか?

4

3 に答える 3

2

Storm プロジェクトを調べましたか? Twitterで使われています。リアルタイム Hadoop のようなものです。

ストリーム処理プロジェクトの 1 つに使用します。それは素晴らしいです。ドキュメンテーション、開発、展開、スケーラビリティが素晴らしい。最近、20K メッセージ/秒を処理 (Cassandra への保存、変更とブロードキャスト、平均の計算) で実行しましたが、確実に機能し、魔法のように機能しました。間違いなく試してみる価値があります。メーリング リストはとてもフレンドリーで、質問するために使うことはめったにありませんでした。

于 2012-08-09T09:54:11.857 に答える
1

1 MB のデータを処理できるのと同じテクノロジで TB のデータを処理できますが、時間がかかります。

「リアルタイム」でデータをどのように使用するつもりなのかわかりません。現実の世界を意味していると思います。

簡単に言うと、人間が消費できるようにデータを要約する必要があります。一度にキロバイトまたはメガバイトの情報しかユーザーに提示できません。

一度にすべてのデータをロードする必要がある場合は、メモリ マップト ファイルを使用すると、これがより効率的になります。これは、毎秒数千万のレコードを処理するために使用できます。

于 2012-08-09T10:09:20.120 に答える
0

このページを確認してください: http://hadoop.apache.org/

分散環境で大量のデータを処理するための関連するフレームワーク/ライブラリがリストされています。

于 2012-08-09T09:58:29.373 に答える