load_file
マルチプロセッサ環境で動作させようとしている方法を使用して、linearsvcをトレーニングセットとテストセットに対して動作させました。
マルチプロセッシングを機能させるにはどうすればよいLinearSVC().fit()
LinearSVC().predict()
ですか?私はまだscikit-learnのデータ型に精通していません。
サンプルを複数の配列に分割することも考えていますが、numpy配列とscikit-learnデータ構造に精通していません。
これを行うと、multiprocessing.pool()に入れるのが簡単になります。これにより、サンプルをチャンクに分割し、トレーニングして、トレーニング済みのセットを後で組み合わせることができますか?
編集:これが私のシナリオです:
たとえば、トレーニングサンプルセットに100万個のファイルがあり、Tfidfvectorizerの処理を複数のプロセッサに分散する場合は、それらのサンプルを分割する必要があります(私の場合、カテゴリは2つしかないため、トレーニングする各サンプルは500000とします)。 。私のサーバーには48GBの24コアがあるので、各トピックを1000000/24のチャンク数に分割し、それらでTfidfvectorizerを処理したいと思います。そのように、SVC.fit()とdecide()だけでなく、サンプルセットのテストも行います。それは意味がありますか?
ありがとう。
PS:これを閉じないでください。