scikit-learn を使用して、潜在的意味分析 (LSA) に関するいくつかのバリエーションを試してみたいと思います。からの純粋な度数カウントCountVectorizer()
と の重み付けされた結果に加えTfidfTransformer()
て、エントロピー (および対数エントロピー) による重み付けをテストしたいと思います (元の論文で使用され、非常にうまく機能すると報告されています)。
続行する方法について何か提案はありますか? Gensim には実装 ( LogEntropyModel()
) があることは知っていますが、scikit-learn に固執することを好みます。