ambiguity - JavaCC のあいまいさ: 「より長い一致」のリストから特定の一致を選択するようにパーサーに指示するにはどうすればよいですか?

Question

一部の入力に対して、パーサーは「より長い一致の可能性のある種類: { <式>, <テキスト> }」を提示しますが、何らかの奇妙な理由で間違ったものを選択します。

これはソースです：

SKIP :
{
  " "  
| "\r"
| "\t"
| "\n"
}

TOKEN :
{
  < DOT : "." >
| < LBRACE : "{" >
| < RBRACE : "}" >
| < LBRACKET: "[" >
| < RBRACKET: "]" >
| < #LETTER : [ "a"-"z" ] >
| < #DIGIT : [ "0"-"9" ] >
| < #IDENTIFIER: < LETTER > (< LETTER >)* >
| < EXPRESSION : (< IDENTIFIER> < DOT > < IDENTIFIER> < DOT > < IDENTIFIER> ((< DOT > < IDENTIFIER> )* | < LBRACKET > (< DIGIT>)* < RBRACKET >)*)*>
| < TEXT : (( < DOT >)* ( < LETTER > )+ (< DOT >)*)* >
}

void q0() :
{Token token = null;}
{
    (
        < LBRACE > expression() < RBRACE >
    |   ( token = < TEXT >
            {
              getTextTokens().add( token.image );
            }
        )
    )* < EOF >
}


void expression() :
{Token token = null;}
{
  < EXPRESSION >
}

この文法を使用して"a.bc.d"を解析しようとすると、 " FOUND A <EXPRESSION> MATCH (a.bc.d) " となります。

私の質問は、入力を <TEXT> ではなく <EXPRESSION>として解析することを選択したのはなぜですか?

また、パーサーに正しいパスを選択させるにはどうすればよいですか? 私は無数の LOOKAHEAD シナリオを試しましたが、成功しませんでした。

正しいパスは、たとえば"a.bc.d"を入力として使用する場合は<TEXT>であり、 "{a.bc.d}"の場合は<EXPRESSION>です。

前もって感謝します。

score 2 · Accepted Answer

JavaCC FAQから:

複数の正規表現が可能な限り長いプレフィックスを記述している場合、.jj ファイルで最初に来る正規表現が使用されます。

したがって、あいまいな定義をそれに応じて順序付けすることで、好みを確立できます。

ambiguity - JavaCC のあいまいさ: 「より長い一致」のリストから特定の一致を選択するようにパーサーに指示するにはどうすればよいですか?

2 に答える 2

Related

Reference