私は最近多くの文字セットを扱ってきましたが、ランダムなWebページに適切な文字セットを確立しようとすると多くの問題を発見しました。文字セットは、htmlドキュメントのヘッダーに設定することも、<head>
セクション内に複数回設定することもできますが、宣言が省略されることもあります。これらの問題にもかかわらず、クロムは毎回最高の文字セットを設定するのに素晴らしい仕事をします。ソース
を検索してみましたが、どこを見ればよいかわからないため、何も見つかりませんでした。
だから私の質問は、どこでアルゴリズムを見つけることができるかということです。
ありがとう
アップデート:
問題のある例:
ドキュメントのHTTPヘッダー(サーバー構成に基づく):
Content-type: text/html; charset=utf-8
ドキュメントは次のようになります:
<?xml version="1.0" encoding="ISO-8859-1"?>
<html>
<head>
<meta charset="UTF-8">
<meta http-equiv="Content-type" content="text/html;charset=ISO-8859-1" />
</head>
<body>...</body>
</html>
テキストのレンダリングにはどのエンコーディングが使用されますか?