XML スタイルシート PI の文法は仕様で与えられているので、それを正しく行いたい場合は、その文法のパーサーを作成するだけです。言語は実際には規則的であるため、正規表現で正しく解析できます。XML 仕様では文字参照や定義済みのエンティティ参照を処理命令内で認識する必要がないため、処理命令内でそれらを処理する責任が生じる可能性が高いことが、最も複雑な問題です。
正確な方法については、作業している環境によって異なります。例として、次の XQuery 関数を使用してジョブを実行し、処理命令の疑似属性から作成された要素のリストを返します。PI が仕様で指定された文法に一致しない場合、 という名前の単一の要素を返しますerror
。
declare function bmt:parse-sspi($s as xs:string)
as element()* {
if (bmt:check-sspi($s)) then
let $s1 := substring-after($s,"<?xml-stylesheet"),
$s2 := substring-before($s1,"?>")
return bmt:parse-pseudoatts($s2)
else <error/>
};
この関数は、疑似属性を解析する実際の作業を、呼び出しごとに 1 つの属性と値のペアを解析する別の再帰関数に渡します。
declare function bmt:parse-pseudoatts($s as xs:string)
as element()* {
(: We know that $s is a syntactically legal sequence
of pseudo-attribute value specifications. So we
can get by with simpler patterns than we would
otherwise need.
:)
let $s1 := replace($s,"^\s+","")
return if ($s1 = "") then () else
let $s2 := substring-before($s, '='),
$Name := normalize-space($s2),
$s3 := substring-after($s, '='),
$s4 := replace($s3,"^\s+",""),
$Val := if (starts-with($s4,'"')) then
substring-before(
substring($s4,2),
'"')
else if (starts-with($s4,"'")) then
substring-before(
substring($s4,2),
"'")
else <ERROR/>,
$sRest := if (starts-with($s4,'"')) then
substring-after(
substring($s4,2),
'"')
else if (starts-with($s4,"'")) then
substring-after(
substring($s4,2),
"'")
else ""
return (element {$Name} { $Val },
bmt:parse-pseudoatts($sRest))
};
コメントが示すように (そしてご覧のとおり)、PI が実際に合法であることを事前に知っておくと、これらの両方にメリットがあります。そのため、文字列の最初の「=」の前にあるものから空白を取り除くことで、疑似属性名を解析できます。
正確さの保証はcheck-sspi
、関数が正しいことを確認するために、仕様の文法と関数を簡単に比較できる方法で正規表現を体系的に構築する別の関数によって与えられます。
declare function bmt:check-sspi($s as xs:string)
as xs:boolean {
let $pio := "<\?",
$kw := "xml-stylesheet",
$pic := "\?>",
$S := "\s+",
$optS := "\s*",
$Name := "\i\c*",
$CharRef := "&#[0-9]+;|&#x[0-9a-fA-F]+;",
$PredefinedEntityRef := concat("&amp;",
"|&lt;",
"|&gt;",
"|&quot;",
"|&apos;"),
$dq := '"',
$sq := "'",
$dqstring := concat($dq,
"(",
"[^", $dq, "<&]",
"|",
"$CharRef",
"|",
"$PredefinedEntityRef",
")*",
$dq),
$sqstring := concat($sq,
"(",
"[^",$sq,"<&]",
"|",
"$CharRef",
"|",
"$PredefinedEntityRef",
")*",
$sq),
$psAttVal := concat("(",$dqstring,"|",$sqstring,")"),
$pseudoAtt := concat("(",
$Name,
$optS, "=", $optS,
$psAttVal,
")"),
$sspi := concat($pio,
$kw,
"(", $S, $pseudoAtt, ")*",
$optS,
$pic),
$sspi2 := concat("^", $sspi, "$")
return if (matches($s,$sspi2)) then true() else false()
};
テスト文字列の場合
<?xml-stylesheet foo="bar"
href="http://www.w3.org/2008/09/xsd.xsl"
type='text/xsl'
?>
トップレベルparse-sspi
関数が返す
<foo>bar</foo>
<href>http://www.w3.org/2008/09/xsd.xsl</href>
<type>text/xsl</type>
これらの関数は、Perl スタイルの正規表現を 1 つだけ使用して構文解析を行うと、もう少しコンパクトになる可能性があります。このようなコンパクトな形式の方が自然で理解しやすいと感じる人もいれば、ここに示すような簡潔ではない形式を好む人もいます。