Scikit のLinearSVCをメモリに収めるには大きすぎる、または実用的でないデータセットでどのようにトレーニングしますか? これを使用してドキュメントを分類しようとしており、タグ付けされたサンプル レコードが数千ありますが、このすべてのテキストをメモリに読み込んで LinearSVC をトレーニングしようとすると、メモリの 65% 以上が消費され、強制的にシステムが完全に応答しなくなる前に、それを殺してください。
メソッドを呼び出す代わりに、トレーニング データを単一のファイルとしてフォーマットし、ファイル名を使用して LinearSVC にフィードすることは可能fit()
ですか?
このガイドを見つけましたが、実際には分類のみをカバーしており、トレーニングが段階的に行われることを前提としています。これは、LinearSVC ではサポートされていません。