scikit-learn分類子をシリアル化する最も効率的な方法は何ですか?
私は現在、テキスト分類子をシリアル化するために Python の標準 Pickle モジュールを使用していますが、これは非常に大きな pickle になります。シリアル化されたオブジェクトは 100MB 以上になる可能性があり、これは大きすぎると思われ、生成と保存に時間がかかります。私は Weka で同様の作業を行いましたが、同等のシリアル化された分類子は通常、数 MB しかありません。
scikit-learn は、トレーニング データやその他の無関係な情報をピクルにキャッシュしている可能性がありますか? もしそうなら、シリアル化された scikit-learn 分類子のサイズを高速化して縮小するにはどうすればよいですか?
classifier = Pipeline([
('vectorizer', CountVectorizer(ngram_range=(1,4))),
('tfidf', TfidfTransformer()),
('clf', OneVsRestClassifier(LinearSVC())),
])