これは、一部の人にとって興味深い質問かもしれません。
与えられたもの:SQL Server (RDBMS)に保存された2〜3テラバイトのデータは、Amazonのデータに似ていると考えてください。つまり、ユーザー->見たもの/クリックしたもの->購入したもの
タスク:ユーザーに表示するレコメンデーションエンジン(Amazonなど)を作成します。これを購入した顧客もこれを購入しました->これが気に入った場合は、これが好きかもしれません->(また)将来の購入習慣を予測するためのデータマイニングの種類well(データマイニング)。などなど、基本的にはレコエンジンです。
問題:膨大な量のデータ(5〜6年分のユーザー習慣データ)があるため、Hadoopが究極のソリューションだと思います。ここで問題となるのは、どの技術ツールの組み合わせを使用するか、つまり、
HDFS:基礎となるファイルシステム
HBASE / HIVE / PIG :?
Mahout:Map-Reduce(遺伝子、クラスター、データマイニングなど)を使用すると想定しているいくつかのアルゴリズムを実行するため
-何が足りないのですか?このすべての処理のためにRDBMSデータをロードするのはどうですか?(Sqoop for Hadoop?)
-このすべての最後に、結果(レコ)のリストを取得します。または、直接クエリを実行して、.NETで構築したフロントエンドにレポートする方法がありますか?
この質問への答えは、将来、Hadoopの実験を開始したい私のような多くの人々にとって良い議論になるかもしれません。