text2vec パッケージの DTM (文書用語マトリックス) の作成に関するドキュメントがあります。たとえば、次の例では、マトリックスの作成後に TFIDF 重み付けが適用されます。
data("movie_review")
N <- 1000
it <- itoken(movie_review$review[1:N], preprocess_function = tolower,
tokenizer = word_tokenizer)
v <- create_vocabulary(it)
vectorizer <- vocab_vectorizer(v)
it <- itoken(movie_review$review[1:N], preprocess_function = tolower,
tokenizer = word_tokenizer)
dtm <- create_dtm(it, vectorizer)
# get tf-idf matrix from bag-of-words matrix
dtm_tfidf <- transformer_tfidf(dtm)
トレーニング データセットに基づいて DTM を作成し、そのデータセットをモデルへの入力として使用するのが一般的です。次に、新しいデータ (テスト セット) に遭遇すると、新しいデータに同じ DTM を作成する必要があります (つまり、トレーニング セットで使用されたすべての同じ用語を意味します)。とにかく、この方法で新しいデータセットを変換するパッケージがありますか (scikit には、このタイプのインスタンスのための変換メソッドがあります)。