C#で正規表現を介して特別なタグからHTMLをきれいにする方法は?
これは、削除する必要があるサンプル HTML です。<font size="-2">
R&usg=AFQjCNFYiDC6u3xOGn4JpO-GF83PjdSbtw&url=http://online.wsj.com/article/SB10000872396390444426404577647060576633348.html"><img src="//nt2.ggpht.com/news/tbn/bm6jvTMtF-PpnM/6.jpg" alt="" border="1" width="80" height="80" /><br /><font size="-2">Wall Street Journal</font></a></font>
</td>
どういうわけか正規表現を使用する必要があることはわかっていますが、それをどのように使用できるかわかりません。
この方法を調整しようとしましたが、すべてのタグが消去されます。
public string Strip(string text)
{
return Regex.Replace(text, @”<(.|\n)*?>”, string.Empty);
}
実際、私はこのようにするためのいくつかのアプローチを探しています
public string Strip(string text, HTMLTags.Font)
{
}
ここHTMLTags.Font
で、いくつかの HTML タグの列挙
enum HTMLTags
{
Font,
Div,
Td
...
}
手がかりをありがとう!!!