私は見ています:
それはただ言う:
tokenizer : callable または None (デフォルト) 前処理と n-gram 生成ステップを維持しながら、文字列トークン化ステップをオーバーライドします。アナライザー == '単語' の場合にのみ適用されます。
関数は何を返す必要がありますか? 単語のリスト ? この関数によって返されなければならないデータ構造を示す例はどこかにありますか?
編集:たとえば、独自のカスタムトークナイザー関数を作成している場合、何を返す必要がありますか。