0

世界最大の都市部(ページ2)にあるページをスクレイプするためにHtmlAgilityPackライブラリを利用するc#コードを作成しました。残念ながら、ページは不正な形式のコンテンツで構成されています。

このページをスクレイプする方法が行き詰まっています。私が持っている現在のコード(以下に表示)は、HTMLの解析時にフリーズします:

 HtmlNodeCollection cityRecords = _htmlDocument.DocumentNode.SelectNodes("//table[@class='boldtable']//tr[position() != 1]");
 CityNodes = (from node in cityRecords.Descendants()
              where node.Name == "td"
              select node).ToList();

目標は、ページにリストされているすべての都市を各データポイントで解析することです。これ以上何もない。上記のコードを変更する方法、または無料で入手できる別のライブラリを使用する方法に関する推奨事項を探しています。

ありがとう!

4

1 に答える 1

3

解析する前に、コンテンツを HTML Tidy で実行します。

http://tidy.sourceforge.net/

于 2009-12-15T16:13:21.997 に答える