1

Hadoopライブラリを含むMapReduce プロジェクトを実行し、 AWSにアップロードされたビッグ データでテストする予定です。私はまだアイデアを確定していません。しかし、ある種のデータ処理、MapReduce デザイン パターン、そしておそらくグラフ アルゴリズム、Hive と PigLatinが含まれると確信しています。誰かが私にそれについていくつかのアイデアを与えることができれば、本当に感謝しています. 心に留めていることはほとんどありません。

最終的には、大規模なデータセットに取り組み、情報を取得して結論を​​導き出す必要があります。このために、私は以前にデータマイニングにWekaを使用しました(ツリーを使用)。

しかし、それが私が現在(Wekaを使用して)作業できる唯一のものであるかどうかはわかりません。大規模なデータに取り組み、大規模なデータセットから結論を導き出す方法は他にありますか?

また、これにグラフを含めるにはどうすればよいですか?

基本的に私は研究プロジェクトを作りたいのですが、正確に何に取り組めばよいのか、どのようにすべきなのかわかりません。何かご意見は ?示唆的なリンク/アイデア? 知識共有 ?

4

2 に答える 2

1

Apache Mahoutを確認することをお勧めします。これは、Hadoop とうまく統合できるスケーラブルな機械学習およびデータ マイニング フレームワークです。

Hive は、ビッグ データをクエリするための SQL に似た言語を提供します。基本的には、高レベルのクエリを MapReduce ジョブに変換し、データ クラスターで実行します。

別の提案は、R を使用してデータ処理アルゴリズムを実行することを検討することです。これは統計ソフトウェア (matlab に似ています) です。標準の R 環境の代わりに、Rを開発する環境であるR Revolutionを使用することをお勧めしますが、ビッグデータとクラスタリングのための非常に強力なツール。

編集:学生の場合、R Revolution には無料のアカデミック エディションがあります。

編集: 3 番目の提案は、クラスターでの実行が比較的簡単な Java の別の Map/Reduce 実装であるGridGainを調べることです。

于 2012-11-13T08:57:23.293 に答える
0

すでに MapRedude と Hadoop を使用しているため、Mahoutを使用してデータから知識を抽出したり、次の非常に優れた本からアイデアを得ることができます。

http://infolab.stanford.edu/~ullman/mmds.html

この本は、ソーシャル ネットワーク グラフをマイニングするためのアイデアを提供し、他のいくつかの方法でもグラフを操作します。

それが役に立てば幸い!

于 2014-01-10T12:27:35.370 に答える