.net - 整形式でない XML を XDocument にロードする (複数の DTD)

Question

最初に複数の DTD 宣言があることを除いて、ほぼ整形式の XHTML ドキュメントであるデータの処理に問題があります。

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">

<html xmlns="http://www.w3.org/1999/xhtml">
  <head>
    ...
  </head>
  <body>
    ...
  </body>
</html>

最初のDTDのみを使用し、残りの宣言を無視して、このデータを XDocument オブジェクトにロードする必要があります。âドキュメントにはなどの特殊な文字が含まれている可能性があるため、DTD 処理を完全に無視することはできません€。

テキストは外部ソースから取得されますが、なぜこのようになるのかわかりません。

明らかに、このドキュメントを読み込もうとする単純な試みは次のように失敗しSystem.Xml.XmlException : Cannot have multiple DTDsます。

        var xmlReaderSettings = new XmlReaderSettings
                                    {
                                        DtdProcessing = DtdProcessing.Parse,
                                        XmlResolver = new XmlPreloadedResolver(),
                                        ConformanceLevel = ConformanceLevel.Document,
                                    };
        using (var xmlReader = XmlReader.Create(stream, xmlReaderSettings))
        {
            return XDocument.Load(xmlReader);
        }

この種のデータを処理する最善の方法は何でしょうか?

PS: 言及するのを忘れていましたが、データはStream文字列操作を少し複雑にする場合としない場合があります。

score 1 · Accepted Answer

この問題を無視する XmlReader 設定があるかどうかはわかりませんが、標準の文字列操作をいつでも使用して、余分な doctype を削除できます。

.net - 整形式でない XML を XDocument にロードする (複数の DTD)

1 に答える 1

Related

Reference