コードポイント値が 57600 ~ 58607 の Unicode 文字を含む XML ファイルがいくつかあります。現在、これらはコンテンツ内で正方形のブロックとして表示されており、これらを要素に変換したいと考えています。
だから私が達成したいのは次のようなものです:
<!-- current input -->
<p> Follow the on-screen instructions.</p>
<!-- desired output-->
<p><unichar value="58208"/> Follow the on-screen instructions.</p>
<!-- Where 58208 is the actual codepoint of the unicode character in question -->
私はトークナイザーで少しだまされましたが、分割への参照が必要なため、これは複雑すぎることが判明しました。
これに最善を尽くす方法について何かアドバイスはありますか?私は以下のようなことをいくつか試してきましたが、打たれました(構文は気にしないでください。意味がないことはわかっています)
<xsl:template match="text()">
-> for every character in my string
-> if string-to-codepoints(current character) greater then 57600 return <unichar value="codepoint value"/>
else return character
</xsl:template>