私は数学者であり、時々統計/機械学習分析のコンサルティングプロジェクトを行っています。私がアクセスできるデータは通常、最大で数百メガバイト(ほとんどの場合ははるかに少ない)の小さい側にありますが、ギガバイト/テラバイトスケールでのデータの処理と分析について詳しく知りたいと思います。私は何を知る必要があり、そこから学ぶためのいくつかの良いリソースは何ですか?
- Hadoop/MapReduceは明らかなスタートの1つです。
- 私が習得すべき特定のプログラミング言語はありますか?(私は現在、主にPython、Ruby、R、そして時にはJavaで作業していますが、CとClojureは大規模なデータ分析によく使用されているようです?)
- ビッグデータに関連していることを除けば、私はNoSQLの動き全体に精通していません。それについて学ぶのに適した場所はどこですか?また、私が精通している必要がある特定の実装(Cassandra、CouchDBなど)はありますか?
- 大量のデータに機械学習アルゴリズムを適用する方法については、どこで学ぶことができますか?私の数学のバックグラウンドは主に理論の側面にあり、数値や近似の側面ではありません。標準のMLアルゴリズムのほとんどは実際にはスケーリングしないと思います。
- 学ぶべきことに関する他の提案は素晴らしいでしょう!