2

scikit-learn で MultinomialNB モデルを使用してスパム検出器をトレーニングしています。DictVectorizer クラスを使用して、トークンを単語数 (つまり、機能) に変換します。到着した新しいデータ (この場合は、アプリ サーバーに着信するチャット メッセージの形式) を使用して、時間の経過とともにモデルをトレーニングできるようにしたいと考えています。これには、partial_fit 関数が役に立ちそうです。

ただし、最初に「トレーニング」された後に DictVectorizer のサイズを拡大する方法がわかりません。見たことのない新しい機能/単語が到着した場合、それらは単に無視されます。私がやりたいことは、モデルの現在のバージョンと DictVectorizer をピクルして、新しいトレーニング セッションを行うたびに更新することです。これは可能ですか?

4

1 に答える 1