java - Java トークン化: アンダースコアで区切られたものを 1 つの単語として扱う

Question

StreamTokenizer を使用した非常に単純なトークナイザーがあります。これは、数式を個々のコンポーネントに変換します (以下)。私が抱えている問題は、式に T_1 という変数がある場合、[T,_,1] に分割され、[T_1] として返したいということです。

変数を使用して最後の文字がアンダースコアであるかどうかを確認しようとしました。そうであれば、リストにアンダースコアを追加します.Size-1ですが、非常に扱いにくく非効率的なソリューションのようです。これを行う方法はありますか？ありがとう！

        StreamTokenizer tokenizer = new StreamTokenizer(new StringReader(s));
        tokenizer.ordinaryChar('-'); // Don't parse minus as part of numbers.
        tokenizer.ordinaryChar('/'); // Don't parse slash as part of numbers.
        List<String> tokBuf = new ArrayList<String>();
        while (tokenizer.nextToken() != StreamTokenizer.TT_EOF) //While not the end of file 
        {
            switch (tokenizer.ttype) //Switch based on the type of token
            {
            case StreamTokenizer.TT_NUMBER: //Number
                tokBuf.add(String.valueOf(tokenizer.nval));
                break;
            case StreamTokenizer.TT_WORD: //Word
                tokBuf.add(tokenizer.sval);
                break;
            case '_':
                tokBuf.add(tokBuf.size()-1, tokenizer.sval);
                break;
            default: //Operator
                tokBuf.add(String.valueOf((char) tokenizer.ttype));
            }
        }

        return tokBuf;

score 4 · Accepted Answer

これはあなたが望むものです。

tokenizer.wordChars('_', '_');

これにより、_ が単語の一部として認識されます。

補遺:

これはビルドして実行します:

public static void main(String args[]) throws Exception {
    String s = "abc_xyz abc 123 1 + 1";
    StreamTokenizer tokenizer = new StreamTokenizer(new StringReader(s));
    tokenizer.ordinaryChar('-'); // Don't parse minus as part of numbers.
    tokenizer.ordinaryChar('/'); // Don't parse slash as part of numbers.
    tokenizer.wordChars('_', '_'); // Don't parse slash as part of numbers.


    List<String> tokBuf = new ArrayList<String>();
    while (tokenizer.nextToken() != StreamTokenizer.TT_EOF) //While not the end of file 
    {
        switch (tokenizer.ttype) //Switch based on the type of token
        {
        case StreamTokenizer.TT_NUMBER: //Number
            tokBuf.add(String.valueOf(tokenizer.nval));
            break;
        case StreamTokenizer.TT_WORD: //Word
            tokBuf.add(tokenizer.sval);
            break;
        default: //Operator
            tokBuf.add(String.valueOf((char) tokenizer.ttype));
        }
    }
    System.out.println(tokBuf);
}

run:
[abc_xyz, abc, 123.0, 1.0, +, 1.0]

score 0 · Accepted Answer

StringTokenizerの方が適している場合があります。その場合、次のように使用します。

import java.util.ArrayList; java.util.List をインポートします。java.util.StringTokenizer をインポートします。

public class Solution {

    public static void main(String args[]) throws Exception {
        StringTokenizer tokenizer = new StringTokenizer("T_1 1 * bar");
        List<String> tokBuf = new ArrayList<String>();
        while (tokenizer.hasMoreTokens()) //While not the end of file
        {
            tokBuf.add(tokenizer.nextToken());
        }

        System.out.println(tokBuf);
    }
}

これは出力されました：

[T_1, 1, *, bar]

java - Java トークン化: アンダースコアで区切られたものを 1 つの単語として扱う

2 に答える 2

Related

Reference