私は sklearn グリッド検索の並列化に取り組んでおり、3 つのパラメーターをスイープしていますが、ipython.parallel で動作するようにプロジェクトをリファクタリングするのに問題があります。私の現在の考え方は、次のような単純な関数を作成することです。
- リッジパラメータを受け入れます
- モデルをトレーニングするためのデータセットをダウンロードします
- モデルをトレーニングし、スコアと結果のモデルを S3 に保存しますか?
これは、グリッド検索を並列化するアプローチとして理にかなっていますか?
その場合、ローカル マシンとリモート エンジンの間でコードを共有する方法はありますか?
たとえば、いくつかの異なるモジュールを含むソース ツリーがあります。
/exploration
/log_regression/
/log_regression/experiments.py
/log_regression/make_model.py
/linear_regression/
/linear_regression/experiments.py
/linear_regression/make_model.py
/linear_regression/parallel.py
StarCluster を使用して、EC2 にクラスターをデプロイし、リッジ パラメーターで sklearn gridsearch を実行するプロセスを並列化したいと考えました。しかし、すべてのローカル モジュールをリモート エンジンと簡単に共有する方法が見つかりませんでした。これを行うためのパターンはありますか、またはどのように考えを再構築する必要がありますか?