scikit-learnを使用してテキストドキュメントをクラスター化しています。私はそれを行うのを助けるためにクラスCountVectorizer、TfidfTransformerおよびMiniBatchKMeansを使用しています。新しいテキストドキュメントは常にシステムに追加されます。つまり、テキストを変換してクラスターを予測するには、上記のクラスを使用する必要があります。私の質問は、データをディスクにどのように保存する必要があるかということです。ベクトル化、トランスフォーマー、およびkmeansオブジェクトを単純にピクルス化する必要がありますか?データを保存するだけでいいですか?もしそうなら、どうすればそれをベクトライザー、トランスフォーマー、kmeansオブジェクトに戻すことができますか?
どんな助けでも大歓迎です