重複の可能性:
Web ページの解析
C# で Web ページのコンテンツを解析しようとしています。これは私が使用するコードです:
WebRequest request = WebRequest.Create("URL");
WebResponse response = request.GetResponse();
Stream data = response.GetResponseStream();
string html = String.Empty;
using (StreamReader sr = new StreamReader(data))
{
html = sr.ReadToEnd();
}
しかし、問題は、html に含まれるすべてのデータを取得することです。
有用なデータを「きれいな」方法で取得する方法について何か提案はありますか、それとも独自のパーサーを構築する必要がありますか? 例: タイトルとそれに関連するテキストを含む投稿 (ブログのような形式)。