php - preg_match ユニコード解析

Question

Unicode/UTF-8 文字のサブセット (ここでは黄色でマークされているhttp://solomon.ie/unicode/ )を一致させたいと考えています。

// ensure it's valid unicode / get rid of invalid UTF8 chars
$text = iconv("UTF-8","UTF-8//IGNORE",$text);

// and just allow a basic english...ish.. chars through - no controls, chinese etc
$match_list = "\x{09}\x{0a}\x{0d}\x{20}-\x{7e}"; // basic ascii chars plus CR,LF and TAB 
$match_list .= "\x{a1}-\x{ff}"; // extended latin 1 chars excluding control chars
$match_list .= "\x{20ac}"; // euro symbol

if (preg_match("/[^$match_list]/u", $text) )
    $error_text_array[] = "<b>INVALID UNICODE characters</b>";

テストでは期待どおりに動作することが示されているようですが、uniocde の初心者として、私が見落としていた脆弱性を誰かが見つけてくれれば幸いです。

16 進数の範囲が実際の 16 進数値ではなく Unicode コードポイントと一致していることを確認できますか (つまり、ユーロ記号の xe282ac ではなく x20ac が正しい)?

preg_match("/[^0-9\x{20ac}]/u", $text) のように、リテラル文字と 16 進値を混在させることはできますか?

ありがとう、ケビン

以前にこの質問を試しましたが、「codereview.stackexchange.com に適しています」と締め切られましたが、応答がなかったため、より簡潔な形式で再試行しても問題ないことを願っています。

score 2 · Accepted Answer

あなたのコードをテストするためのラッパーを作成しました。あなたが期待する文字をフィルタリングすることは安全だと思いますが、あなたのコードは無効な UTF-8 文字を見つけたときに E_NOTICE を引き起こします。そのため、通知を抑制するには、iconv 行の先頭に @ を追加する必要があると思います。

2 番目の質問では、リテラル文字と 16 進値を混在させても問題ありません。また、自分で試すこともできます。:)

<?php
function generatechar($char)
{
    $char = str_pad(dechex($char), 4, '0', STR_PAD_LEFT);
    $unicodeChar = '\u'.$char;
    return json_decode('"'.$unicodeChar.'"');
}
function test($text)
{   
    // ensure it's valid unicode / get rid of invalid UTF8 chars
    @$text = iconv("UTF-8","UTF-8//IGNORE",$text); //Add @ to surpress warning
    // and just allow a basic english...ish.. chars through - no controls, chinese etc
    $match_list = "\x{09}\x{0a}\x{0d}\x{20}-\x{7e}"; // basic ascii chars plus CR,LF and TAB
    $match_list .= "\x{a1}-\x{ff}"; // extended latin 1 chars excluding control chars
    $match_list .= "\x{20ac}"; // euro symbol

    if (preg_match("/[^$match_list]+/u", $text)  )
        return false;

    if(strlen($text) == 0)
        return false; //For testing purpose!
    return true;
}

for($n=0;$n<65536;$n++)
{
    $c = generatechar($n);
    if(test($c))
        echo $n.':'.$c."\n";
}

php - preg_match ユニコード解析

1 に答える 1

Related

Reference