最近、WebサイトでUTF-8(またはUnicode)文字セットを使用するときにHTML特殊文字をエンコードする必要がなくなったと聞きました。
«(«)、—(—)などの非ASCII文字を意味します。もちろん、HTMLで予約されている文字はエスケープする必要があります(>、“など)。
もしそうなら、ウェブ上で公開するための大きなテキストを準備することは以前よりはるかに簡単になるでしょう。
最近、WebサイトでUTF-8(またはUnicode)文字セットを使用するときにHTML特殊文字をエンコードする必要がなくなったと聞きました。
«(«)、—(—)などの非ASCII文字を意味します。もちろん、HTMLで予約されている文字はエスケープする必要があります(>、“など)。
もしそうなら、ウェブ上で公開するための大きなテキストを準備することは以前よりはるかに簡単になるでしょう。
ブラウザが最初にUTF-8をサポートしていた間、UTF-8を使用するときに、文字を「エンコード」する(のような文字参照—
またはエンティティ参照でエスケープする)必要はありませんでした。—
唯一の例外は、小なり文字「<」です。アンパサンド「&」は、エンコーディングとは関係なくエスケープする必要があります。(まあ、区切り文字と同じマークを持つ引用符付き属性値内で引用符をそのまま使用することはできませんが、通常は回避できます。)
エスケープ表記を引き続き使用できます。オーサリングツールが適切なUTF-8をサポートしないように、自分または他の誰かがHTMLドキュメントを編集する必要があると予想される場合は、これを行うことができます。また、テキストを入力していて、すべての文字をそのまま挿入するための便利なツールがないため、これを行うこともできます。ただし、これらは例外です。
それは本当です。
HTMLエンティティ(特別な文字を除く)の使用は、UTF-8が引き継いだ後、かなり時代遅れになっています。