2

無効な HTML コードからクリーンな Xml ツリー (理想的には System.Xml.XmlDocument) を生成できる .NET ライブラリを探しています。IE では、このような状況に直面したときにブラウザーが行うような最善の努力の推測、修復、および置換を行い、偽の XmlDocument を生成する必要があります。また、ライブラリは適切に管理されている必要があります。:)

これは多くの (多すぎる?) 質問であることを認識しており、有益なリードをいただければ幸いです。Java にはかなりの数の実装があるようですが、私はむしろ独自のバインディングを生成したくありません。これまでのところ、.NET については、 http://www.majestic12.co.uk/projects/html_parser.phphttp://users.rcn.com/creitzel/tidy.html#dotnet、およびhttp://sourceforgeを見つけました。 .net/projects/tidyfornet .

私はまだこれらのいずれも構築またはテストしていませんが、(まばらな) ドキュメントとまれな更新から、私が探しているものがあるようには見えません。では、これらの選択肢の中から、または過去の経験から、どのような推奨事項がありますか?

4

1 に答える 1

8

HTML Agility Packは高い評価を得ています。それは確かに解析/最良の推測などを行います.

このモデルは、クエリ用の SelectNodes などを含め、XmlDocument に意図的に似ています。

xhtml 出力が必要な場合は、OptionOutputAsXmlフラグがあります。これを true に設定して呼び出すSaveと xhtml になると思います。

于 2009-04-01T09:59:19.970 に答える