php - HTMLエンコードされたスクリングから空白/ガベージを削除します

Question

改行やタブなどの空白やその他のゴミを削除する正規表現を作成しました。

preg_replace('/[\s\t\n\r]+/mu', ' ', $var);

ただし、私の文字列は html エンコードされているため、一部の文字が &#...; に置き換えられます。

エンコードされた文字も考慮するにはどうすればよいでしょうか?

score 1 · Accepted Answer

グループにそのような量指定子を作成することは可能でしょうか。

preg_replace('/(\s|&#09;|&nbsp;)+/mu', ' ', $var)

編集

はい、これは機能しているようです：

$str='&nbsp; t &#09; &nbsp;&nbsp;  e &#09;  &#09;  &#09;  s&#09;t&#09;  ';

echo '|'.preg_replace('/(\s|&#09;|&nbsp;)+/mu',' ',$str).'|';

^ 期待される結果を生成します。| t e s t |

score 0 · Accepted Answer

最初にhtmlデコードを行い、次に正規表現を適用し、終了してから再度エンコードすることができます

このようなもの：

$result = htmlentities(preg_replace('/[\s\t\n\r]+/mu', ' ', html_entity_decode($var)));

score 0 · Accepted Answer

単一の正規表現では不十分な場合があります。

これにより、制御文字ではないエンティティでエンコードされたascii値が実際の ascii 文字に置き換えられ、制御文字はスペースで置き換えられ、126 を超えるすべてのものはそのままになります。

<?php
$in = "&amp;&#032;&#192;&#12;";

$out = preg_replace_callback('/&#(\d{1,4});/u', function($match) {
        $v = $match[1]+0;
        if($v < 33) return ' ';
        elseif($v > 126) return $match[0];
        else return chr($v);
}, $in);
$out = preg_replace('/\s{2,}/mu', ' ', $out);

echo $out;
?>

注:技術的には 127 ( ESC) もアスキーですが、例を短くするためにスキップしました。

コールバック (および正規表現) を展開するか、中間ステップで名前付きエンティティを削除することができます。ただし、これは と同等では なく、どちら がスペース幅の非表示文字であり、ラップできないことに注意してください。他の名前付きエンティティにも同じことが言えます (通常は、などを保持します) &。

score -1 · Accepted Answer

html_entity_decode()最初に、次にpreg_replaceを使用します。

preg_replace('/[\s\t\n\r]+/mu', ' ', html_entity_decode($var));

php - HTMLエンコードされたスクリングから空白/ガベージを削除します

4 に答える 4

Related

Reference