コンテンツをダウンロードした後、 HTML Agility PackなどのHTMLパーサーを使用して、クラスspan
に属する要素を識別します。jix_channels_count
別のオプションはSgmlReaderです。
あなたはあなたの質問にタグを付けましたregex
-私はあなたがこの方向をとらないように心からアドバイスします。
(SgmlReaderを使用した)推奨されるアプローチは、多かれ少なかれ次のようになります。
var url = "www.that-website.com/foo/";
var myRequest = (HttpWebRequest)WebRequest.Create(url);
myRequest.Method = "GET";
WebResponse myResponse = myRequest.GetResponse();
var responseStream = myResponse.GetResponseStream();
var sr = new StreamReader(responseStream, Encoding.Default);
var reader = new SgmlReader
{
DocType = "HTML",
WhitespaceHandling = WhitespaceHandling.None,
CaseFolding = CaseFolding.ToLower,
InputStream = sr
};
var xmlDoc = new XmlDocument();
xmlDoc.Load(reader);
var nodeReader = new XmlNodeReader(xmlDoc);
XElement xml = XElement.Load(nodeReader);
これで、LINQ to XMLを使用して、(再帰的またはその他の方法で)値が等しいspan
属性を持つ要素を検索し、その要素の値を読み取ることができます。class
jix_channels_count