2

HTML表形式の情報を解析するためにhtmlアジリティパックを使用しています。現在、終了タグが欠落しているいくつかの html コンテンツがあり、終了タグが欠落しているため、そのようなページから html アジリティ パックは情報を適切に解析しません。不足している終了タグを挿入するにはどうすればよいですか?それには独自のコードを作成するか、 html tidy packを使用する必要がありますか?

html tidy pack の場合、どのhtml tidy packが最適で、可能であればどのように使用しますか? そして、それがどのようなものであるかよりも自分のコードなら?

最初にhtmlページを整頓してからWebページを解析できるようにするhtmlアジリティパックのオプションはありますか?

4

2 に答える 2

7

Html Agility Pack には、html ページを整理するオプションが見つかりませんでした。不足している終了タグを挿入するオプションが 1 つありますが、一部の html ページでのみ機能します。html アジリティ パックのオプションは、

  HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
      doc.OptionFixNestedTags=true;

そのために正規表現も試しましたが、一部の html ページでのみ機能します。

だから私は最高のhtml tidy packを見つけました:

http://www.devx.com/dotnet/Article/20505/1763/page/2.

dll をインポートする方法とその整頓されたパックを使用する方法を確認できます。サンプル コードも利用できます。欠けている終了タグを挿入して、HTML ページを整頓することができます。

みんな助けてくれてありがとう..

于 2010-03-24T12:43:56.377 に答える
0

私は、HTML Tidy ( www.html-tidy.org ) が HTML の整頓とクリーニングに最適であることを発見しました。

さまざまなバイナリはこちら -> http://binaries.html-tidy.org

また、多くの言語で HTML Tidy のラッパーがあります。C# 用の TidyHtml5ManagedRepack という名前のものを使用します。

不適切な形式の HTML をクリーンアップし、さまざまなブラウザーで JavaScript を介して調整された同じまたは類似の HTML と比較するという特定のニーズがあります。HTML Tidy を使用すると、HTML を正常/正規化された状態にきれいにすることができるので、他のブラウザーによって調整された同じ HTML と比較して、同じである可能性が最も高いという確信を持つことができます。

于 2020-07-11T11:53:35.153 に答える