メモリに収まらないコーパスに基づいて tf-idf モデルを構築したいと考えています。チュートリアルを読みましたが、コーパスがすぐに読み込まれるようです:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["doc1", "doc2", "doc3"]
vectorizer = TfidfVectorizer(min_df=1)
vectorizer.fit(corpus)
ドキュメントをすべてロードするのではなく、1 つずつメモリにロードできるのではないでしょうか。