Scikit-learn を使用して CountVectorizer オブジェクトを構成し、 (可変長の) nセンテンスの行列Mをfit_transform 関数に渡すと、たとえば n グラム表現Fを取得できます。このような:
vectorizer = CountVectorizer(min_df = 1,
max_features = 2000,
ngram_range = (2, 2),
analyzer="word)
F = vectorizer.fit_transform(A)
これはうまくいきます。max_features を 2000 に設定したため、 Fの形状は (2000, n ) になります。
しかし、もう 1 つの文を取得し、 Fの機能と一致し、同じ長さ (2000) を持つベクトルを生成したいとしましょう。それに新しい文を追加してから、すべての機能を再生成しますか?