java - Java、JavaCC: BMP 外の文字を解析するには?

Question

XML 1.1仕様を参照しています。

の定義を見てくださいNameStartChar:

これを正しく解釈すると、最後の範囲 ( ) はJava の型のUTF16 範囲#x10000-#xEFFFFを超えています。だからそれはUTF32でなければなりませんよね？では、単一の sではなく、この範囲に対してのペアをチェックする必要がありますよね?charcharchar

私の質問は次のとおりです。

標準の Java メソッドを使用して、このような文字範囲を確認するにはどうすればよいですか?
JavaCCでそのような範囲を定義するにはどうすればよいですか?
- JavaCC は\u10000、\uEFFFF

ありがとうございました！

注: 心配しないでください。私は独自の XML パーサーを作成しようとしているわけではありません。
編集: パーサーを作成しています。パーサーは、さまざまな (非 XML) テキスト形式からのテキスト入力が有効な XML 名と一致するかどうかをチェックします。

score 4 · Accepted Answer

Character.toCodePoint(char, char)サロゲートペアをフルレンジコードポイントに変換するを見てください。String.codePointAtあなたにも役立つかもしれません。

Character および String 内には、他にも多くのサロゲートサポートがあります。どのメソッドを呼び出すかを正確に知るには、状況の正確な詳細を知る必要があります。

java - Java、JavaCC: BMP 外の文字を解析するには?

2 に答える 2

Related

Reference