私はhadoopとmapreduceが初めてです。マッパーでは、テキスト ファイルからこれらのデータをトークン化します。最初の数行は以下の形式で指定します。
9593C58F7C1C5CE4 970916072134 levis
9593C58F7C1C5CE4 970916072311 levis strause & co
9593C58F7C1C5CE4 970916072339 levis 501 jeans
45531846E8E7C127 970916065859
45531846E8E7C127 970916065935
45531846E8E7C127 970916070105 "brazillian soccer teams"
45531846E8E7C127 970916070248 "brazillian soccer"
45531846E8E7C127 970916071154 "population of maldives"
082A665972806A62 970916123431 pegasus
F6C8FFEAA26F1778 970916070130 "alicia silverstone" cutest crush batgirl babysitter clueless
945FF0D5996FD556 970916142859 mirc
String Tokenizer を使用すると、これらのデータを分割できません。マシンが混乱して、このファイルからデータを取得できません。String.split() 以外に、この問題の代替手段はありますか?