javascript - JavaScript 正規表現を使用して、数値の HTML エンティティを実際の文字に置き換えます

Question

JavaScript と正規表現を使用して、数値の HTML エンティティを実際の Unicode 文字に置き換えようとしています。

foo&#39;s bar
→
foo's bar

これは私がこれまでに得たものです：

"foo&#39;s bar".replace(/&#([^\s]*);/g, "$1"); // "foo39s bar"

あとは数字をに置き換えるだけString.fromCharCode($1)ですが、うまくいきません。これどうやってするの？

score 10 · Accepted Answer

10

"foo&#39;s bar".replace(/&#(\d+);/g, function(match, match2) {return String.fromCharCode(+match2);})

于 2010-11-27T15:21:10.657 に答える

score 3 · Accepted Answer

"foo&#39;s bar".replace(/&#([^\s]*);/g, function(x, y) { return String.fromCharCode(y) })

現在の例では、最初の引数（x）は「'」です。yは39です。

score 3 · Accepted Answer

コールバック関数を使用するだけでなく、16 進文字参照 ( ) のサポートを追加することを検討することもできますሴ。

また、fromCharCode物足りない場合があります。たとえば𐤀、フェニキア文字への有効な参照ですが、これは Basic Multilingual Plane の外にあり、JavaScript の String モデルは完全な文字コードポイントではなく UTF-16 コード単位に基づいているため、機能しませfromCharCode(67840)ん。たとえば、UTF-16 エンコーダーが必要です。

String.fromCharCodePoint= function(/* codepoints */) {
    var codeunits= [];
    for (var i= 0; i<arguments.length; i++) {
        var c= arguments[i];
        if (arguments[i]<0x10000) {
            codeunits.push(arguments[i]);
        } else if (arguments[i]<0x110000) {
            c-= 0x10000;
            codeunits.push((c>>10 & 0x3FF) + 0xD800);
            codeunits.push((c&0x3FF) + 0xDC00);
        }
    }
    return String.fromCharCode.apply(String, codeunits);
};

function decodeCharacterReferences(s) {
    return s.replace(/&#(\d+);/g, function(_, n) {;
        return String.fromCharCodePoint(parseInt(n, 10));
    }).replace(/&#x([0-9a-f]+);/gi, function(_, n) {
        return String.fromCharCodePoint(parseInt(n, 16));
    });
};

alert(decodeCharacterReferences('Hello &#x10900; mum &#67840;!'));

score 0 · Accepted Answer

すべてのエンティティを定義したくない場合は、ブラウザーに任せることができます。このビットは空の p 要素を作成し、html を書き込み、それが生成するテキストを返します。p 要素がドキュメントに追加されることはありません。

function translateEntities(string){
    var text, p=document.createElement('p');
    p.innerHTML=string;
    text= p.innerText || p.textContent;
    p.innerHTML='';
    return text;
}
var s= 'foo&#39;s bar';
translateEntities(s);

/*  returned value: (String)
foo's bar
*/

javascript - JavaScript 正規表現を使用して、数値の HTML エンティティを実際の文字に置き換えます

4 に答える 4

Related

Reference