テキスト内の n-gram をカウントするために TfIdfVectorizer を使用していますが、最初にそれを見出し語化する必要があります。1 つの書体が異なる補題に対応する場合があるため、それらすべてをカウントする必要があります。scikit-learn コンテキスト内でどのように処理できますか? アナライザーを作成して TfIdfVectorizer に渡す必要がありますか? それはどのように機能しますか?
1 に答える
1
レマタイザを;にプラグインするコード例については、開発バージョンのドキュメントを参照してください。使い方は似ています。CountVectorizer
TfidfVectorizer
(完全な開示: 例は本当にあなたによって書かれました。)
于 2013-05-07T14:06:24.607 に答える