2

htmlspecialchars() が長さ 0 の文字列を返す原因となる特定の文字列 (完全に印刷できるわけではありませんが、以下で確認できます) に遭遇しました。これを修正する方法はありますか?

$Stmnt = 'SELECT subject_name FROM bans WHERE id = 2321';
$Fetch = $Conn->query($Stmnt);
if(!$Fetch)
    die('Could not query DB');
while($Row = $Fetch->fetch_array(MYSQLI_ASSOC))
{
    $RawName = $Row['subject_name'];
    $RawLen = strlen($RawName);
    echo('RAW NAME: ['.$RawName.']'.', LENGTH: ['.$RawLen.']'.'<br />');
    for($i = 0; $i < $RawLen; $i++)
        echo('CHAR '.$i.' = ['.$RawName[$i].'] (ORD: '.ord($RawName[$i]).')<br />');

    $CleanName = htmlspecialchars($RawName, ENT_QUOTES, 'UTF-8');
    $CleanLen = strlen($CleanName);
    echo('CLEAN NAME: ['.$CleanName.']'.', LENGTH: ['.$CleanLen.']'.'<br />');
    for($i = 0; $i < $CleanLen; $i++)
        echo('CHAR '.$i.' = ['.$CleanName[$i].'] (ORD: '.ord($CleanName[$i]).')<br />');
}
$Fetch->close();
echo('DONE');

出力:

RAW NAME: [━═★ Coммander Fι5н �], LENGTH: [31]
CHAR 0 = [�] (ORD: 226)
CHAR 1 = [�] (ORD: 148)
CHAR 2 = [�] (ORD: 129)
CHAR 3 = [�] (ORD: 226)
CHAR 4 = [�] (ORD: 149)
CHAR 5 = [�] (ORD: 144)
CHAR 6 = [�] (ORD: 226)
CHAR 7 = [�] (ORD: 152)
CHAR 8 = [�] (ORD: 133)
CHAR 9 = [ ] (ORD: 32)
CHAR 10 = [C] (ORD: 67)
CHAR 11 = [o] (ORD: 111)
CHAR 12 = [�] (ORD: 208)
CHAR 13 = [�] (ORD: 188)
CHAR 14 = [�] (ORD: 208)
CHAR 15 = [�] (ORD: 188)
CHAR 16 = [a] (ORD: 97)
CHAR 17 = [n] (ORD: 110)
CHAR 18 = [d] (ORD: 100)
CHAR 19 = [e] (ORD: 101)
CHAR 20 = [r] (ORD: 114)
CHAR 21 = [ ] (ORD: 32)
CHAR 22 = [F] (ORD: 70)
CHAR 23 = [�] (ORD: 206)
CHAR 24 = [�] (ORD: 185)
CHAR 25 = [5] (ORD: 53)
CHAR 26 = [�] (ORD: 208)
CHAR 27 = [�] (ORD: 189)
CHAR 28 = [ ] (ORD: 32)
CHAR 29 = [�] (ORD: 226)
CHAR 30 = [�] (ORD: 148)
CLEAN NAME: [], LENGTH: [0]
DONE
4

1 に答える 1

8

長さゼロの文字列を返す理由がわかりました。この質問をして申し訳ありません。もっと調べてから投稿するべきでした。とにかく、答えは次のとおりです。

htmlspecialcharsの PHP マニュアルページ:

入力文字列に指定されたエンコーディング内の無効なコード ユニット シーケンスが含まれている場合、ENT_IGNORE または ENT_SUBSTITUTE フラグが設定されていない限り、空の文字列が返されます。

次に、この文字列の何が「無効」なのかを自問します。UTF-8の Wikiページには、UTF-8 エンコーディングの優れた図が示されています。「プレーン テキスト ASCII」を表すすべてのコードポイントは 0 ~ 127 になります (バイトの MSB は常に 0 です)。

バイトの MSB が 1 (10 進数の 128 から 255) の場合、コードポイントがマルチバイト チェーンで構成されていることを UTF-8 準拠のパーサーに伝えます。 そして、次のバイトの最初の 2 つの最上位ビットは、1 の後に 0 が続く必要があります。

明らかにこの文字列では、1 バイトが 127 を超え、次のバイトが 1 & 0 で始まらない場合があります。したがって、これは無効な UTF-8 エンコーディングです。

私の意見では、 ENT_SUBSTITUTEフラグを使用することです(または、これらの非準拠バイトの削除がセキュリティ上の問題にならないことが確実な場合は、ENT_IGNOREと思います)。

于 2012-07-29T01:38:44.310 に答える