特定のページからのハイパーリンクを解析するために、次のコードを作成しました。
WebClient web = new WebClient();
string html = web.DownloadString("http://www.msdn.com");
string[] separators = new string[] { "<a ", ">" };
List<string> hyperlinks= html.Split(separators, StringSplitOptions.None).Select(s =>
{
if (s.Contains("href"))
return s;
else
return null;
}).ToList();
ただし、URL を完全に返すには、文字列の分割を微調整する必要があります。私の質問は、HTML 文字列を効率的に読み取ることができる、XmlReader などの行にあるデータ構造があることです。
上記のコードを改善するための提案も役に立ちます。
御時間ありがとうございます。