別のアプローチを検討する場合、正規表現の使用は問題にならない可能性があります。たとえば、すべてのタグを検索し、タグ名が定義済みの有効な HTML タグ名のリストと一致するかどうかを確認します。
var protos = document.body.constructor === window.HTMLBodyElement;
validHTMLTags =/^(?:a|abbr|acronym|address|applet|area|article|aside|audio|b|base|basefont|bdi|bdo|bgsound|big|blink|blockquote|body|br|button|canvas|caption|center|cite|code|col|colgroup|data|datalist|dd|del|details|dfn|dir|div|dl|dt|em|embed|fieldset|figcaption|figure|font|footer|form|frame|frameset|h1|h2|h3|h4|h5|h6|head|header|hgroup|hr|html|i|iframe|img|input|ins|isindex|kbd|keygen|label|legend|li|link|listing|main|map|mark|marquee|menu|menuitem|meta|meter|nav|nobr|noframes|noscript|object|ol|optgroup|option|output|p|param|plaintext|pre|progress|q|rp|rt|ruby|s|samp|script|section|select|small|source|spacer|span|strike|strong|style|sub|summary|sup|table|tbody|td|textarea|tfoot|th|thead|time|title|tr|track|tt|u|ul|var|video|wbr|xmp)$/i;
function sanitize(txt) {
var // This regex normalises anything between quotes
normaliseQuotes = /=(["'])(?=[^\1]*[<>])[^\1]*\1/g,
normaliseFn = function ($0, q, sym) {
return $0.replace(/</g, '<').replace(/>/g, '>');
},
replaceInvalid = function ($0, tag, off, txt) {
var
// Is it a valid tag?
invalidTag = protos &&
document.createElement(tag) instanceof HTMLUnknownElement
|| !validHTMLTags.test(tag),
// Is the tag complete?
isComplete = txt.slice(off+1).search(/^[^<]+>/) > -1;
return invalidTag || !isComplete ? '<' + tag : $0;
};
txt = txt.replace(normaliseQuotes, normaliseFn)
.replace(/<(\w+)/g, replaceInvalid);
var tmp = document.createElement("DIV");
tmp.innerHTML = txt;
return "textContent" in tmp ? tmp.textContent : tmp.innerHTML;
}
実際のデモ: http://jsfiddle.net/m9vZg/3/
これが機能するのは、一致する開始タグ「<」の一部でない場合、ブラウザーは「>」をテキストとして解析するためです。正規表現を使用して HTML タグを解析しようとする場合と同じ問題に悩まされることはありません。探しているのは開始区切り文字とタグ名だけであり、他のすべては無関係であるためです。
これは将来の証明でもあります。WebIDL 仕様はベンダーに HTML 要素のプロトタイプを実装する方法を指示しているため、現在一致するタグから HTML 要素を作成しようとしています。要素が のインスタンスである場合HTMLUnknownElement
、有効な HTML タグではないことがわかります。validHTMLTags
正規表現は、IE 6 や 7 など、これらのプロトタイプを実装していない古いブラウザー用の HTML タグのリストを定義します。