「é」などの特殊文字を含む Web ページを解析しようとしています。問題は、これらの文字がコードの最終出力で異なって表示されることです。次に例を示します。
"Réalisations" は "Réalisations" になります
私は非常に基本的な方法でドキュメントを解析しています。最初に HttpWebRequest を送信し、応答を取得してから、この応答から HtmlDocument を読み込みます。
HtmlDocument.Load(response.GetResponseStream());
最初にエンコーディングを確認したのですが、正しくUTF-8に設定されています。何がそのようなことを引き起こす可能性があるのか 誰かが知っていますか?
いくつかの追加情報:
HtmlDocument の html (HtmlDocument.DocumentNode.OuterHtml) を .txt ファイルにコピーすると、最初は正しくレンダリングされませんが、.txt ファイルを閉じて開くと正しくレンダリングされます。
ありがとう。