java - java StreamTokenizer wordChars() および nextToken()

Question

これはばかげた質問かもしれませんが、StreamTokenizer が入力ストリームを区切る方法を認識するのに苦労しています。スペースとネクストラインで区切られていますか？wordChars() の使用についても混乱しています。例えば：

public static int getSet(String workingDirectory, String filename, List<String> set) {
    int cardinality = 0;
    File file = new File(workingDirectory,filename);
    try {
        BufferedReader in = new BufferedReader(new FileReader(file));
        StreamTokenizer text = new StreamTokenizer(in);
        text.wordChars('_','_');
        text.nextToken();
        while (text.ttype != StreamTokenizer.TT_EOF) {
            set.add(text.sval);
            cardinality++;
//              System.out.println(cardinality + " " + text.sval);
            text.nextToken();
        }
        in.close();
    } catch (IOException ex) {
        ex.printStackTrace();
    }
    return cardinality; 
}

テキストファイルに A_B_C D_E_F という文字列が含まれている場合。

text.wordChars('_','_') は、アンダースコアのみが有効な単語と見なされることを意味しますか?

この場合、トークンは何になりますか?

どうもありがとうございました。

score 1 · Accepted Answer

how StreamTokenizer delimit input streams. Is it delimited by space and nextline?

短い答えはイエスです

解析プロセスは、テーブルと、さまざまな状態に設定できるいくつかのフラグによって制御されます。ストリームトークナイザーは、識別子、数字、引用符で囲まれた文字列、およびさまざまなコメントスタイルを認識できます。さらに、インスタンスには 4 つのフラグがあります。フラグの 1 つは、行末記号をトークンとして返すか、単にトークンを区切る空白として扱うかを示します。

Does text.wordChars('_','_') mean only underscore will be considered as valid words?

短い答えはイエスです

WordChars2 つの入力を取ります。First( low) は文字セットの下端、second( high) は文字セットの上端です。lowより小さい値でが渡された場合、に0設定され0ます。合格ですので_ = 95、下端はと認めます_=95。high がそれよりも小さい値で渡された場合255、文字セット範囲の上限として受け入れられます。あなたはとして高く合格しているので_=95、これも受け入れられます。から文字の範囲を決定しようとするとlow-to-high、それ自体である 1 つの文字のみが検出され_ます。その場合、_単語文字として認識される文字はだけになります。

score 0 · Accepted Answer

これをチェックしてください

Pattern splitRegex = Pattern.compile("_");
String[] tokens = splitRegex.split(stringtobesplitedbydelimeter);

または使用することもできます

   String[] tokens = stringtobesplitedbydelimeter.split('_')

java - java StreamTokenizer wordChars() および nextToken()

2 に答える 2

Related

Reference