不正な文字 (バイナリ マーカー) を含むテキスト ファイルの解析に問題があります。答えは次のようなものになります。
test.csv
^000000^id1,text1,text2,text3
^000000^
は、ソース ファイル内の不正な文字のテキスト表現です。
処理する前に、java.nio を使用して行を検証することを考えていました。そこで、次のように Validator トレイトを導入することを考えていました。
import java.nio.charset._
trait Validator{
private def encoder = Charset.forName("UTF-8").newEncoder
def isValidEncoding(line:String):Boolean = {
encoder.canEncode(line)
}
}
これが状況を処理するための正しいアプローチだと思いますか?
ありがとう