0

さまざまな大規模な調査に対する何百万もの回答を保存する調査エンジンを作成中です。

それぞれ 10 ~ 100 人のユーザーを持つさまざまな機関があります。それぞれが 3000 以上の質問の調査を管理できます。代理店も複数出ます。

各機関がそれぞれ 3000 以上の応答を持つ数十万のセッションを持つ場合、セッションとその応答データを取得してさまざまな分析 (集計など) を実行するのに Hadoop が適していると思います。

セッション、調査の質問、および回答は、現在すべて sql データベースに保持されています。それを維持して、データを並列に配置しようと考えていました。したがって、エージェンシーの下で新しいセッションが取得されると、データセット全体が呼び出されたときに含まれるように、hadoop の「ファイル」に追加されます。

この実装は Hadoop でうまく機能しますか、それともまだリレーショナル データベースの制限内に収まっていますか?

4

1 に答える 1

1

ここで「はい」か「いいえ」かを明確に言える人はいないと思います。また、質問の文言からあなたのプログラムが何をするのかを完全に把握しているとは思いませんが、一般的に、Hadoop Map/Reduce は大量のデータのバッチ処理に優れています。対話型 (リアルタイム) ツールを意図したものではありません。したがって、システムが次の場合:

1) 調査結果の分析、傾向の生成、データの要約などのスケジュールされたジョブを実行する予定がある場合は、はい、M/R がこれに適しています。

2) ユーザーが関心のあるものを指定して調査を検索し、その入力に基づいてリアルタイムでレポートを取得できるようにします....そうでない場合、M/R はおそらくこれに最適なツールではないでしょう. HBaseをご覧になることをお勧めします。まだ使用していませんが、Hiveはクエリ ベースのツールですが、それがどのように「リアルタイム」になるかはわかりません。また、Drillはビッグ データをインタラクティブにクエリする有望なプロジェクトです。

于 2013-10-14T21:46:31.823 に答える