c# - Html ユーティリティパックが非 ASCII テキストを正しく読み取らない

Question

日本語のテキストを取得する代わりに html ドキュメントを解析すると、次のような結果が得られます。

�͂��āB��̓C�t�T�[��ł��A21�΂ł��A��b�R�ɂ��ł�� A��͓��{�̕��A�N��ɓ��{��邱�Ƃ� ��A��3�N��{��׋��A��̓t��X�p ��A��r�A��邱�Ƃɂ��邱�Ƃł��傤 ^ ^��͓��{� l�̗F�B�ɉ��A��ɂ��闝�R�ł��A�ł́A�ç��B�C�t�T�[� �(^ ^)\r\n\t\t\t

HtmlDocument のエンコーディングは iso-2022-jp に設定されていますが、これは正しいようです。私も試しました

HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.UTF8;

何か案は？

score 0 · Accepted Answer

これで修正されました：

HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.GetEncoding(932);
doc = web.Load(url);

コードページ 932 を見つけるために読み込まれた後、HtmlDocument の Encoding プロパティを調べました。検出されたにもかかわらず、最初の読み取りでは使用されませんでした。UTF8 は適切なエンコーディングではありませんでした。

c# - Html ユーティリティ パックが非 ASCII テキストを正しく読み取らない

1 に答える 1

Related

Reference

c# - Html ユーティリティパックが非 ASCII テキストを正しく読み取らない