さまざまな標準的な機械学習タスクを実行するために、AmazonElasticMapReduceをセットアップしました。私は過去にローカル機械学習にPythonを幅広く使用しましたが、Javaについては知りません。
私の知る限り、分散型機械学習用に十分に開発されたPythonライブラリはありません。一方、Javaには、ApacheMahoutとClouderaの最近のOryxがあります。
基本的に、2つのオプションから選択する必要があるようです。適切なライブラリが存在するまで、またはHadoopのPythonラッパーの1つで使用するために、独自のアルゴリズムを並列化するか、Javaにジャンプして、Mahout/Oryxを使用できるようにします。独自のMapReduce単語数コードを作成することと独自のMapReduceSVMを作成することには違いがあります。このような素晴らしいチュートリアルの助けを借りても。
どちらが賢明な選択かわからないので、私の質問は次のとおりです。
A)私が見逃したPythonライブラリがありますか?そうでない場合は、近い将来に役立つ開発中のものがあるかどうか知っていますか?
B)上記の答えが「いいえ」の場合、私の時間はJavaに船をジャンプするのに費やしたほうがよいでしょうか?