私は機械学習プロジェクトに取り組んでいます。そこでは、中国語のテキストに対して単純ベイズ分類器を構築しています。nグラムの漢字を特徴として使用したいので、テキストをユニグラム(個別の文字)、バイグラム(2文字のシーケンス)などに分割できる必要があります。(特別なトークン化などは気にしません。生の文字をn-gramとして使用したいだけです。)
Scalaでこれを行うにはどうすればよいですか?バイグラムを取得しようとtext.sliding(2)
しましたが、うまくいかないようです。(漢字は英語のように1バイトではないので推測しますか?)