c++ - XMLスタイルシート処理命令の解析

Question

XMLスタイルシート処理命令を正しく解析するにはどうすればよいですか？私が理解しているように、次のようなXML処理命令の値：

<?xml-stylesheet type="application/xsl" src="style.xsl" version="1.0"?>

は：

type="application/xsl" src="style.xsl" version="1.0"

これをキーと値のペアのリストに解析するにはどうすればよいですか？これを行う方法の例をいくつか探しましたが、見つかりませんでした。

ここでのキーワードは正しくあります...特定の状況で失敗する可能性のある単純な正規表現を記述したくはありません。XMLスタイルシート命令を適切に解析する方法に従って、これを完全に解析するようにします。

score 2 · Accepted Answer

XML スタイルシート PI の文法は仕様で与えられているので、それを正しく行いたい場合は、その文法のパーサーを作成するだけです。言語は実際には規則的であるため、正規表現で正しく解析できます。XML 仕様では文字参照や定義済みのエンティティ参照を処理命令内で認識する必要がないため、処理命令内でそれらを処理する責任が生じる可能性が高いことが、最も複雑な問題です。

正確な方法については、作業している環境によって異なります。例として、次の XQuery 関数を使用してジョブを実行し、処理命令の疑似属性から作成された要素のリストを返します。PI が仕様で指定された文法に一致しない場合、という名前の単一の要素を返しますerror。

declare function bmt:parse-sspi($s as xs:string) 
  as element()* {

  if (bmt:check-sspi($s)) then
     let $s1 := substring-after($s,"<?xml-stylesheet"),
         $s2 := substring-before($s1,"?>")
     return bmt:parse-pseudoatts($s2) 
  else <error/>
};

この関数は、疑似属性を解析する実際の作業を、呼び出しごとに 1 つの属性と値のペアを解析する別の再帰関数に渡します。

declare function bmt:parse-pseudoatts($s as xs:string) 
  as element()* {

  (: We know that $s is a syntactically legal sequence
     of pseudo-attribute value specifications. So we
     can get by with simpler patterns than we would
     otherwise need.
     :)

  let $s1 := replace($s,"^\s+","")
  return if ($s1 = "") then () else
         let $s2 := substring-before($s, '='),
             $Name := normalize-space($s2),
             $s3 := substring-after($s, '='),
             $s4 := replace($s3,"^\s+",""),
             $Val := if (starts-with($s4,'"')) then
                        substring-before(
                          substring($s4,2),
                          '"')
                     else if (starts-with($s4,"'")) then
                        substring-before(
                          substring($s4,2),
                          "'")
                     else <ERROR/>,
             $sRest := if (starts-with($s4,'"')) then
                        substring-after(
                          substring($s4,2),
                          '"')
                     else if (starts-with($s4,"'")) then
                        substring-after(
                          substring($s4,2),
                          "'")
                     else ""

  return (element {$Name} { $Val }, 
          bmt:parse-pseudoatts($sRest))
};

コメントが示すように (そしてご覧のとおり)、PI が実際に合法であることを事前に知っておくと、これらの両方にメリットがあります。そのため、文字列の最初の「=」の前にあるものから空白を取り除くことで、疑似属性名を解析できます。

正確さの保証はcheck-sspi、関数が正しいことを確認するために、仕様の文法と関数を簡単に比較できる方法で正規表現を体系的に構築する別の関数によって与えられます。

declare function bmt:check-sspi($s as xs:string) 
  as xs:boolean {

  let $pio := "<\?",
      $kw := "xml-stylesheet",
      $pic := "\?>",
      $S := "\s+",
      $optS := "\s*",
      $Name := "\i\c*",
      $CharRef := "&amp;#[0-9]+;|&amp;#x[0-9a-fA-F]+;",
      $PredefinedEntityRef := concat("&amp;amp;",
                                     "|&amp;lt;",
                                     "|&amp;gt;",
                                     "|&amp;quot;",
                                     "|&amp;apos;"),
      $dq := '"',
      $sq := "'",
      $dqstring := concat($dq,
                          "(",
                          "[^", $dq, "&lt;&amp;]",
                          "|",
                          "$CharRef",
                          "|",
                          "$PredefinedEntityRef",
                          ")*",
                          $dq),
      $sqstring := concat($sq,
                          "(",
                          "[^",$sq,"&lt;&amp;]",
                          "|",
                          "$CharRef",
                          "|",
                          "$PredefinedEntityRef",
                          ")*",
                          $sq),
      $psAttVal := concat("(",$dqstring,"|",$sqstring,")"),
      $pseudoAtt := concat("(", 
                           $Name, 
                           $optS, "=", $optS, 
                           $psAttVal,
                           ")"),
      $sspi := concat($pio,
                      $kw,
                      "(", $S, $pseudoAtt, ")*",
                      $optS,
                      $pic),
      $sspi2 := concat("^", $sspi, "$")
      return if (matches($s,$sspi2)) then true() else false()
};

テスト文字列の場合

<?xml-stylesheet  foo="bar"
      href="http://www.w3.org/2008/09/xsd.xsl"
      type='text/xsl'
?>

トップレベルparse-sspi関数が返す

<foo>bar</foo>
<href>http://www.w3.org/2008/09/xsd.xsl</href>
<type>text/xsl</type>

これらの関数は、Perl スタイルの正規表現を 1 つだけ使用して構文解析を行うと、もう少しコンパクトになる可能性があります。このようなコンパクトな形式の方が自然で理解しやすいと感じる人もいれば、ここに示すような簡潔ではない形式を好む人もいます。

score 1 · Accepted Answer

何のプログラミング言語？

Java を使用している場合は、次の便利なコードを見つけることができます。

http://grepcode.com/file/repo1.maven.org/maven2/net.sourceforge.saxon/saxon/9.1.0.8/net/sf/saxon/om/ProcInstParser.java

c++ - XMLスタイルシート処理命令の解析

2 に答える 2

Related

Reference