unicode - Antlrで生成されたレクサーが「補足面」のUnicode文字でハングする（antlr 3.4）

Question

私はantlr文法とantlrRubyTargetを使用してPHPコードを解析しています。私が解析しなければならないソースファイルの1つには実際に翻訳が含まれており、それらのいくつかはUnicode文字を多用しています。文法は「補足面」の1文字、つまりU+10430にかかっているようです。

Ruby antlrターゲットがかなり古く、Unicodeに準拠していなかったため、過去にも同様の問題が発生しました（当時、Rubyはそうではありませんでした）。それを解決するには、RubyTarget.java getMaxCharValueを0xFF（ascii）から0xFFFF（unicode）にバンプする必要がありました。今ではこのセットでも足りないようです。Unicodeは、この範囲外の文字は2つのUTF-16文字を使用して表すことができると述べていますが、antlrはこれをどのように管理しますか？getMaxCharValueを再度バンプすることは役に立ちますか（一度は実行しましたが、私は「試行」アプローチのファンではありません）？

ありがとう！

score 1 · Accepted Answer

ANTLRの参照Javaターゲットは、文法でUTF-16サロゲートペアを使用し、入力ストリームにUTF-16エンコーディングを使用することによってのみ、補足面の文字を解析できます。他のターゲットはコミュニティのメンバーによって作成され、（Rubyターゲットを見たように）同じ範囲の文字をサポートしない場合があります。

文法自体で0xFFFEを超えるものを表す方法がないため、0xFFを超える文字をサポートするようにターゲットを変更した場合でも、UTF-16エンコーディングに制限されます。

unicode - Antlrで生成されたレクサーが「補足面」のUnicode文字でハングする（antlr 3.4）

1 に答える 1

Related

Reference