scikit-learn - Tfidfvectorizer にパラメーターとして渡されるトークナイザーの予想される戻り値の型は何ですか?

翻译自：https://stackoverflow.com/questions/48072700 2018-01-03T07:04:13.873

300 次

1

私は見ています：

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

それはただ言う：

tokenizer : callable または None (デフォルト) 前処理と n-gram 生成ステップを維持しながら、文字列トークン化ステップをオーバーライドします。アナライザー == '単語' の場合にのみ適用されます。

関数は何を返す必要がありますか? 単語のリスト ? この関数によって返されなければならないデータ構造を示す例はどこかにありますか?

編集:たとえば、独自のカスタムトークナイザー関数を作成している場合、何を返す必要がありますか。

0 に答える 0