hadoop - データマイニングを使用した MapReduce プロジェクト

Question

Hadoopライブラリを含むMapReduce プロジェクトを実行し、 AWSにアップロードされたビッグデータでテストする予定です。私はまだアイデアを確定していません。しかし、ある種のデータ処理、MapReduce デザインパターン、そしておそらくグラフアルゴリズム、Hive と PigLatinが含まれると確信しています。誰かが私にそれについていくつかのアイデアを与えることができれば、本当に感謝しています. 心に留めていることはほとんどありません。

最終的には、大規模なデータセットに取り組み、情報を取得して結論を導き出す必要があります。このために、私は以前にデータマイニングにWekaを使用しました（ツリーを使用）。

しかし、それが私が現在（Wekaを使用して）作業できる唯一のものであるかどうかはわかりません。大規模なデータに取り組み、大規模なデータセットから結論を導き出す方法は他にありますか?

また、これにグラフを含めるにはどうすればよいですか?

基本的に私は研究プロジェクトを作りたいのですが、正確に何に取り組めばよいのか、どのようにすべきなのかわかりません。何かご意見は？示唆的なリンク/アイデア? 知識共有？

score 1 · Accepted Answer

Apache Mahoutを確認することをお勧めします。これは、Hadoop とうまく統合できるスケーラブルな機械学習およびデータマイニングフレームワークです。

Hive は、ビッグデータをクエリするための SQL に似た言語を提供します。基本的には、高レベルのクエリを MapReduce ジョブに変換し、データクラスターで実行します。

別の提案は、R を使用してデータ処理アルゴリズムを実行することを検討することです。これは統計ソフトウェア (matlab に似ています) です。標準の R 環境の代わりに、Rを開発する環境であるR Revolutionを使用することをお勧めしますが、ビッグデータとクラスタリングのための非常に強力なツール。

編集:学生の場合、R Revolution には無料のアカデミックエディションがあります。

編集: 3 番目の提案は、クラスターでの実行が比較的簡単な Java の別の Map/Reduce 実装であるGridGainを調べることです。

score 0 · Accepted Answer

すでに MapRedude と Hadoop を使用しているため、Mahoutを使用してデータから知識を抽出したり、次の非常に優れた本からアイデアを得ることができます。

http://infolab.stanford.edu/~ullman/mmds.html

この本は、ソーシャルネットワークグラフをマイニングするためのアイデアを提供し、他のいくつかの方法でもグラフを操作します。

それが役に立てば幸い！

hadoop - データ マイニングを使用した MapReduce プロジェクト

2 に答える 2

Related

Reference

hadoop - データマイニングを使用した MapReduce プロジェクト