多くのサイトを解析しています。すべて正常に動作します。エンコーディングを変換するためのcharset宣言も読んでいます。今、私はhttp://celleheute.de/sonntagsfuhrung-3/に問題があります。
HTMLメタタグは、コンテンツがISO-8859-2としてエンコードされていることを示していますが、HTTPヘッダーはUTF-8であることを示しています。実際、コンテンツはUTFエンコードされているため、パーサーがコンテンツをISOに変換しようとすると、いくつかの文字が壊れます。
さて、私の質問は、どちらの宣言を好むべきかということです。HTTPヘッダーで宣言を見つけることができる場合、またはその逆の場合、メタタグを無視する必要がありますか?ほとんどのWebブラウザは何をしますか?