c# - XmlReader：引用符なしで属性を解析する際の問題

Question

解析しようとしているHTMLには、引用符なしの属性値が含まれています。たとえば、幅と高さの属性があります。

<img src="/static/logo.png" width=75 height=90 />

C＃コードでは、リーダーは次のアンカータグまで読み取ります。

while (reader.ReadToFollowing("a"))

このステートメントはXmlExceptionを報告します：

'75' is an unexpected token. The expected token is '"' or '''. Line 16, position 37.

XmlReaderをより寛大にするためのXmlReaderSettingはありますか？生成されたHTMLを制御できません。

score 6 · Accepted Answer

HTMLを読むには、その目的のために設計されたリーダーが必要です。HtmlAgilityPackは、関連する質問へのこの回答で参照されているSgmlReaderと同様に、ここで役立ちます。

HTMLはXMLではありません。どちらもSGMLに基づいていますが、異なる規則に従います。XMLには、HTMLよりもはるかに厳しいルールがあります。これには、すべてのタグを閉じる必要があることや、属性を一重引用符または二重引用符で囲む必要があることが含まれます。したがって、XML準拠のXHTMLを解析しない限り、XmlReaderは機能しません。

score 3 · Accepted Answer

WebBrowserコントロールも使用できます。ファイルをそのファイルにロードし、WebBrowser.DocumentプロパティからHtmlDocumentを取得します。その後、コントロールをループできます。

c# - XmlReader：引用符なしで属性を解析する際の問題

2 に答える 2

Related

Reference