マイニングが必要な MB/TB のデータを生成する Web サイトがあります。テラバイトのデータをリアルタイムで処理するには、どのテクノロジーを使用する必要がありますか? Hadoop 、Cassandra はバッチ処理に適しています。しかし、リアルタイムではありません。リアルタイム; 発生中のデータを処理し、それに関するレポートを表示することを意味します。アイデアや提案はありますか?
3 に答える
Storm プロジェクトを調べましたか? Twitterで使われています。リアルタイム Hadoop のようなものです。
ストリーム処理プロジェクトの 1 つに使用します。それは素晴らしいです。ドキュメンテーション、開発、展開、スケーラビリティが素晴らしい。最近、20K メッセージ/秒を処理 (Cassandra への保存、変更とブロードキャスト、平均の計算) で実行しましたが、確実に機能し、魔法のように機能しました。間違いなく試してみる価値があります。メーリング リストはとてもフレンドリーで、質問するために使うことはめったにありませんでした。
1 MB のデータを処理できるのと同じテクノロジで TB のデータを処理できますが、時間がかかります。
「リアルタイム」でデータをどのように使用するつもりなのかわかりません。現実の世界を意味していると思います。
簡単に言うと、人間が消費できるようにデータを要約する必要があります。一度にキロバイトまたはメガバイトの情報しかユーザーに提示できません。
一度にすべてのデータをロードする必要がある場合は、メモリ マップト ファイルを使用すると、これがより効率的になります。これは、毎秒数千万のレコードを処理するために使用できます。
このページを確認してください: http://hadoop.apache.org/
分散環境で大量のデータを処理するための関連するフレームワーク/ライブラリがリストされています。