antlr - ANTLR3でのwikitext-to-HTMLの実例

Question

ANTLR 3でウィキテキストからHTMLへの翻訳を具体化しようとしていますが、行き詰まり続けています。

私が調べることができる実用的な例を知っていますか？MediaWikiANTLR文法とWikiCreole文法を試しましたが、ANTLR3でレクサーとパーサーを生成することができません。

これが私が使ってみた2つの文法へのリンクです：

Javaレクサーとパーサーを生成するためにこれら2つを取得できません。（私はEclipseプラグインとしてANTLR3を使用しています）。MediaWikiのビルドにはかなりの時間がかかり、ある時点でOutOfMemory例外がスローされます。もう1つには、デバッグ方法がわからないエラーがあります。

編集：さて、私は非常に基本的な文法を持っています：

grammar wikitext;

options {
  //output = AST;
  //ASTLabelType = CommonTree;
  output = template;
  language = Java;
}

document: line (NL line?)*;

line: horizontal_line | list | heading | paragraph;

/* horizontal line */
horizontal_line: HRLINE;

/* lists */
list: unordered_list | ordered_list;

unordered_list: '*'+ content;
ordered_list: '#'+ content;

/* Headings */
heading: heading1 | heading2 | heading3 | heading4 | heading5 | heading6;
heading1: H1 plain H1;
heading2: H2 plain H2;
heading3: H3 plain H3;
heading4: H4 plain H4;
heading5: H5 plain H5;
heading6: H6 plain H6;

/* Paragraph */
paragraph: content;

content: (formatted | link)+;

/* links */
link: external_link | internal_link;

external_link: '[' external_link_uri ('|' external_link_title)? ']';
internal_link: '[[' internal_link_ref ('|' internal_link_title)? ']]' ;

external_link_uri: CHARACTER+;
external_link_title: plain;
internal_link_ref: plain;
internal_link_title: plain;

/* bold & italic */
formatted: bold_italic | bold | italic | plain;

bold_italic: BOLD_ITALIC plain BOLD_ITALIC;
bold: BOLD plain BOLD;
italic: ITALIC plain ITALIC;

/* Plain text */
plain: (CHARACTER | SPACE)+;


/**
 * LEXER RULES
 * --------------------------------------------------------------------------
 */

HRLINE: '---' '-'+;

H1: '=';
H2: '==';
H3: '===';
H4: '====';
H5: '=====';
H6: '======';

BOLD_ITALIC: '\'\'\'\'\'';
BOLD: '\'\'\'';
ITALIC: '\'\'';

NL: '\r'?'\n';

CHARACTER       :       '!' | '"' | '#' | '$' | '%' | '&'
                |       '*' | '+' | ',' | '-' | '.' | '/'
                |       ':' | ';' | '?' | '@' | '\\' | '^' | '_' | '`' | '~'
                |       '0'..'9' | 'A'..'Z' |'a'..'z' 
                |       '\u0080'..'\u7fff'
                |       '(' | ')'
                |       '\'' | '<' | '>' | '=' | '[' | ']' | '|' 
                ;

SPACE: ' ' | '\t';

HTMLを出力する方法はわかりませんが、私にはわかりません。StringTemplateを調べていますが、テンプレートの構造がわかりません。具体的には、どのテンプレートが文法のどこに行くかです。簡単な例を教えていただけますか？

score 6 · Accepted Answer

さて、あなたの編集の後、私はいくつかの推奨事項があります。

コメントで言ったように、そのような言語の文法を書くことはほとんど不可能です。少なくとも、一度にそうしようとすると、つまり。私がこれが機能していることを確認する唯一の方法は、最初の「解析段階」がwikiソースを非常に「粗く」解析する複数のパーサーでこれを行うことです。例：atableは次のようにトークン化されます：TABLE : '{|' .* '|}'次に、このテーブルを適切に解析する別のパーサーを作成します。1つのパーサーでそれを行うと、パーサールールIMOにかなりのあいまいさが生じます。

HTMLコードの発行については、これを行うための「適切な」方法は確かにStringTemplateを使用することですが、ANTLR自体にかなり慣れていないという事実を考えると、私は物事を単純にしておきます。ソースファイルを解析するときにすべてのHTMLコードを収集するStringBuilder属性をパーサークラスに作成できます。{コードをとでラップすることにより、ANTLRルールにコードを埋め込むことができます}。

簡単なデモは次のとおりです。

grammar T;

@parser::members {

  // an attribute that is only available in your 
  // parser (so only in parser rules!)
  protected StringBuilder htmlBuilder = new StringBuilder();
}

// Parser rules
parse
  :  atom+ EOF
  ;

atom
  :  header
  |  Any    {htmlBuilder.append($Any.text);} // append the text from 'Any' token
  ;

header
  :  H3 h3Content H3 {htmlBuilder.append("<h3>" + $h3Content.text + "</h3>");}
  |  H2 h2Content H2 {htmlBuilder.append("<h2>" + $h2Content.text + "</h2>");}
  |  H1 h1Content H1 {htmlBuilder.append("<h1>" + $h1Content.text + "</h1>");}
  ;

h3Content : ~H3*; // match any token except H3, zero or more times
h2Content : ~H2*; //        "               H2          "
h1Content : ~H1*; //        "               H1          "

// Lexer rules    
H3 : '===';
H2 : '==';
H1 : '=';

// Fall through rule: if non of the above 
// lexer rules matched, this one will.
Any
  :  .
  ;

その文法から、パーサーとレクサーを生成します。

java -cp antlr-3.2.jar org.antlr.Tool T.g

次に、パーサーをテストするための小さなクラスを作成します。

import org.antlr.runtime.*;

public class Main {
    public static void main(String[] args) throws Exception {

        // the source to be parsed
        String source = 
                "= header 1 =             \n"+
                "                         \n"+
                "some text here           \n"+
                "                         \n"+
                "=== header level 3 ===   \n"+
                "                         \n"+
                "and some more text         ";

        ANTLRStringStream in = new ANTLRStringStream(source);
        TLexer lexer = new TLexer(in);
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        TParser parser = new TParser(tokens);

        // invoke the start-rule in your parser
        parser.parse();

        // print the contents of your parser's StringBuilder
        System.out.println(parser.htmlBuilder);
    }
}

次に、すべてのソースファイルをコンパイルします。

javac -cp antlr-3.2.jar *.java

そして最後に、メインクラスを実行します

// *nix & MacOS
java -cp .:antlr-3.2.jar Main

// Windows
java -cp .;antlr-3.2.jar Main

これにより、以下がコンソールに出力されます。

<h1> header 1 </h1>             

some text here           

<h3> header level 3 </h3>   

and some more text

しかし、繰り返しになりますが、解析する別の言語を自由に選択できる場合は、それを実行して、この恐ろしいWikiの構文解析を忘れてしまいます。

とにかく、あなたが何をするにしても：幸運を祈ります！

antlr - ANTLR3でのwikitext-to-HTMLの実例

1 に答える 1

Related

Reference