5

この質問が python Scikit-learnライブラリに固有のものである場合は申し訳ありません。

scikit-learn のGradientBoostingRegressorに最適なパラメーターを見つけるためにグリッド検索を実行しようとしています。問題は、どこから始めればよいかわからないことです。過去にRとRStudioのセットアップを使用していましたが、現在、データマイニングのためにPythonに移行しようとしています.Scikitは非常に有望です.

Amazon EC2 クラスターで計算するために使用した可能性のある簡単なセットアップ コードを共有したり、他の機械学習アルゴリズムのライブラリの有用な参照例を指摘したりできる人はいますか?

ありがとうございました。

4

2 に答える 2

7

私の知る限り、GBRT は非常に順次的なアルゴリズムであるため、並列に実行する簡単な方法はありません。

ランダム フォレスト/ExtraTrees モデルは驚くほど並列であるため、クラスターでモデルをトレーニングするためのより良い候補になります。

scikit-learn には、joblib を使用した単一マシンのマルチプロセッシングのサポートが組み込まれています (n_jobs引数を受け入れるモデルのドキュメント文字列を確認してください)。代わりに、ある時点で joblib にタスク ディスパッチ フレームワークを実装する予定です。したがって、たとえば IPython 並列をバックエンドとして利用して、クラスターで実行することができます。ただし、現時点では、すぐに使用できるものは何もありません。

自分で時間を割く準備ができている場合は、StarCluster とその IPython プラグインを確認することをお勧めします。

于 2012-10-30T18:45:42.067 に答える
5

私はogriselに完全に同意します-StarClusterは、IPythonクラスターをすぐにセットアップでき、スポットインスタンスをサポートするため、非常に便利です。これは、通常のものよりもはるかに安価であるため、優れています.

この要点には、IPython クラスターで sklearn の勾配ブースティング推定器の分散グリッド検索を行う方法を示すコードがいくつかあります。

交差検証と組み合わせたグリッド検索を行い、評価されたグリッド ポイントを MongoDB データベースに格納します。

コードは、交差検証スコアの平均に基づいて、最適な数の木を自動的に選択します。

ハッピーチューニング!

于 2012-10-31T19:53:39.613 に答える