1

私は見ています:

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

それはただ言う:

tokenizer : callable または None (デフォルト) 前処理と n-gram 生成ステップを維持しながら、文字列トークン化ステップをオーバーライドします。アナライザー == '単語' の場合にのみ適用されます。

関数は何を返す必要がありますか? 単語のリスト ? この関数によって返されなければならないデータ構造を示す例はどこかにありますか?

編集:たとえば、独自のカスタムトークナイザー関数を作成している場合、何を返す必要がありますか。

4

0 に答える 0