HTMLの解析に正規表現を使用しないでください。javascriptが含まれていないことを確認できる場合もありますが、他の方法でひどく壊れないことを確認することはできません。代わりに、適切なパーサーを使用してください。
また、JavaScriptを含まない有効なHTMLでも、他の不快な要素(オーディオ、ビデオ、CSSノード、フォーム要素など)を含めることができます。許可するHTML要素にはホワイトリストを使用することをお勧めします。
コードがどのように見えるかの例を次に示します(疑似コードであると想定されていても、これは実際には適切なC#構文である可能性があることに注意してください)。
string[] tagWhitelist = ['strong', 'em', 'span' /*, ...*/];
string[] attrWhitelist = [/*...*/];
void function fixNode(DOMNode node, bool dieOnError){
if(tagWhitelist.contains(node.type()){
node.children.each((x) => fixNode(x))
node.attributes
.filter((x) => !attrWhitelist.contains(x))
.each((x) => dieOnError ? throw new InvalidTagException() : x.remove())
}else{
dieOnError ? throw new InvalidAttrException() : node.remove()
}
}
...
string output = fixNode(DOMParser.load(input, {strict:false}), false).toString();
これは検証にも使用できますが、パーサーが無効なHTMLで例外をスローできる場合に限ります(私が使用したHTMLは、常にコードを修正しようとします)。
try{
// note: if fixNode is only ever used to validate, don't use exceptions
fixNode(DOMParser.load(input, {strict:true}), true);
return true;
}catch(InvalidTagException, InvalidAttrException ex){
return false;
}
更新:コメントでリンクしたコードはこれを正確に行うと主張していますが、実際にそうなることを保証することはできません。