java - JavaCC: 一般的な単語を含むトークンの処理方法

Question

次のようなソースコードのパーサーを作成しようとしています:

[code table 1.0]
code table code_table_name
    id = 500
    desc = "my code table one"
end code table

...そして、以下は私が定義した文法です:

PARSER_BEGIN(CodeTableParser)
...
PARSER_END(CodeTableParser)

/* skip spaces */
SKIP: {
         " "
    |    "\t"
    |    "\r"
    |    "\n"
}

/* reserved words */
TOKEN [IGNORE_CASE]: {
        <CODE_TAB_HEADER:     "[code table 1.0]">
    |   <CODE_TAB_END:        "end" (" ")+ <CODE_TAB_BEGIN>>
    |   <CODE_TAB_BEGIN:      <IDENT> | "code" (" ")+ "table">
    |   <ID:                  "id">
    |   <DESC:                "desc">
}

/* token images */
TOKEN: {
        <NUMBER:  (<DIGIT>)+>
    |   <IDENT:   (<ALPHA>)+>
    |   <VALUE:   (<ALPHA> ["[", "]"])+>
    |   <STRING:  <QUOTED>>
}

TOKEN: {
        <#ALPHA:  ["A"-"Z", "a"-"z", "0"-"9", "$", "_", "."]>
    |   <#DIGIT:  ["0"-"9"]>
    |   <#QUOTED: "\"" (~["\""])* "\"">
}

void parse():
{
}
{
    expression() <EOF>
}

void expression():
{
    Token tCodeTab;
}
{
    <CODE_TAB_HEADER>
    <CODE_TAB_BEGIN>
    tCodeTab = <IDENT>
    (
        <ID>
        <DESC>
    )*
    <CODE_TAB_END>
}

問題は、パーサーがトークン (「コードテーブル」) を正しく識別することですが、トークン CODE_TAB_BEGIN (つまり「コード」) に既に含まれている単語が含まれているため、トークン IDENT (「code_table_name」) を識別しません。パーサーは、「コードの後に無効な文字 _ が続いている」と文句を言います...

そうは言っても、パーサーを正しく機能させるために何が欠けているのか疑問に思っています。私は初心者で、どんな助けも本当に感謝しています;-)

ありがとう、j3d

score 2 · Accepted Answer

lexer は IDENT を生成しません。

<CODE_TAB_BEGIN:      <IDENT> | "code" (" ")+ "table">

は、すべての IDENT が CODE_TAB_BEGIN になる可能性があり、このプロダクションが最初に来るため、最初の一致ルールによって IDENT のプロダクションを打ち負かすと述べています。(RTFFQ)

その生産を

<CODE_TAB_BEGIN:      "code" (" ")+ "table">

ID と DESC で問題が発生しますが、これにより 2 行目の入力を通過できます。

java - JavaCC: 一般的な単語を含むトークンの処理方法

1 に答える 1

Related

Reference