java - StreamTokenizer は 001_to_003 を 2 つのトークンに分割します。そうならないようにするにはどうすればよいですか？

Question

Java の StreamTokenizer は、数値の識別に貪欲すぎるようです。構成オプションが比較的少なく、自分のやりたいことを実行する方法が見つかりません。次のテストに合格し、IMO は実装にバグを示しています。私が本当に望んでいるのは、2 番目のトークンが単語「20001_to_30000」として識別されることです。何か案は？

public void testBrokenTokenizer()
        throws Exception
{
    final String query = "foo_bah 20001_to_30000";

    StreamTokenizer tok = new StreamTokenizer(new StringReader(query));
    tok.wordChars('_', '_');       
    assertEquals(tok.nextToken(), StreamTokenizer.TT_WORD);
    assertEquals(tok.sval, "foo_bah");
    assertEquals(tok.nextToken(), StreamTokenizer.TT_NUMBER);
    assertEquals(tok.nval, 20001.0);
    assertEquals(tok.nextToken(), StreamTokenizer.TT_WORD);
    assertEquals(tok.sval, "_to_30000");
}

FWIW 代わりに StringTokenizer を使用できますが、多くのリファクタリングが必要になります。

score 0 · Accepted Answer

IMO、最善の解決策はスキャナーを使用することですが、由緒ある StreamTokenizer を強制的に機能させたい場合は、次のことを試してください。

import java.util.regex.*;
...

final String query = "foo_bah 20001_to_30000\n2.001 this is line number 2 blargh";

StreamTokenizer tok = new StreamTokenizer(new StringReader(query));

// recreate standard syntax table
tok.resetSyntax();
tok.whitespaceChars('\u0000', '\u0020');
tok.wordChars('a', 'z');
tok.wordChars('A', 'Z');
tok.wordChars('\u00A0', '\u00FF');
tok.commentChar('/');
tok.quoteChar('\'');
tok.quoteChar('"');
tok.eolIsSignificant(false);
tok.slashSlashComments(false);
tok.slashStarComments(false);
//tok.parseNumbers();  // this WOULD be part of the standard syntax

// syntax additions
tok.wordChars('0', '9');
tok.wordChars('.', '.');
tok.wordChars('_', '_');

// create regex to verify numeric conversion in order to avoid having
// to catch NumberFormatException errors from Double.parseDouble()
Pattern double_regex = Pattern.compile("[-+]?[0-9]*\\.?[0-9]+([eE][-+]?[0-9]+)?");

try {
    int type = StreamTokenizer.TT_WORD;

    while (type != StreamTokenizer.TT_EOF) {
        type = tok.nextToken();

        if (type == StreamTokenizer.TT_WORD) {
            String str = tok.sval;
            Matcher regex_match = double_regex.matcher(str);

            if (regex_match.matches()) {  // NUMBER
                double val = Double.parseDouble(str);
                System.out.println("double = " + val);
            }
            else {  // WORD
                System.out.println("string = " + str);
            }
        }
    }
}
catch (IOException err) {
    err.printStackTrace();
}

基本的に、StreamTokenizer から数値のトークン化をオフロードしています。正規表現の一致は、指定されたトークンで Double.parseDouble() が機能しないことを伝えるために NumericFormatException に依存することを避けるためです。

java - StreamTokenizer は 001_to_003 を 2 つのトークンに分割します。そうならないようにするにはどうすればよいですか？

1 に答える 1

Related

Reference