Hadoopライブラリを含むMapReduce プロジェクトを実行し、 AWSにアップロードされたビッグ データでテストする予定です。私はまだアイデアを確定していません。しかし、ある種のデータ処理、MapReduce デザイン パターン、そしておそらくグラフ アルゴリズム、Hive と PigLatinが含まれると確信しています。誰かが私にそれについていくつかのアイデアを与えることができれば、本当に感謝しています. 心に留めていることはほとんどありません。
最終的には、大規模なデータセットに取り組み、情報を取得して結論を導き出す必要があります。このために、私は以前にデータマイニングにWekaを使用しました(ツリーを使用)。
しかし、それが私が現在(Wekaを使用して)作業できる唯一のものであるかどうかはわかりません。大規模なデータに取り組み、大規模なデータセットから結論を導き出す方法は他にありますか?
また、これにグラフを含めるにはどうすればよいですか?
基本的に私は研究プロジェクトを作りたいのですが、正確に何に取り組めばよいのか、どのようにすべきなのかわかりません。何かご意見は ?示唆的なリンク/アイデア? 知識共有 ?