nlp - scikit-learn で n グラムをカウントするときの同形異義語の処理

Question

テキスト内の n-gram をカウントするために TfIdfVectorizer を使用していますが、最初にそれを見出し語化する必要があります。1 つの書体が異なる補題に対応する場合があるため、それらすべてをカウントする必要があります。scikit-learn コンテキスト内でどのように処理できますか? アナライザーを作成して TfIdfVectorizer に渡す必要がありますか? それはどのように機能しますか？

score 1 · Accepted Answer

レマタイザを;にプラグインするコード例については、開発バージョンのドキュメントを参照してください。使い方は似ています。CountVectorizerTfidfVectorizer

(完全な開示: 例は本当にあなたによって書かれました。)

nlp - scikit-learn で n グラムをカウントするときの同形異義語の処理

1 に答える 1

Related

Reference