0

日本語のテキストを取得する代わりに html ドキュメントを解析すると、次のような結果が得られます。

�͂������������āB���̓C�t�T�[���ł��A21�΂ł��A�����b�R�ɂ���ł������� �A���͓��{�̕��������������A�N�������ɓ��{�������邱�Ƃ� ����������A����3�N������{����׋������������A���̓t�����X�p ����A���r�A�������邱�Ƃɂ��������������邱�Ƃł��傤 ^ ^���͓��{� l�̗F�B�ɉ�����A���������ɂ��闝�R�ł��A�ł́A�ç��B�C�t�T�[� �(^ ^)\r\n\t\t\t

HtmlDocument のエンコーディングは iso-2022-jp に設定されていますが、これは正しいようです。私も試しました

HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.UTF8;

何か案は?

4

1 に答える 1

0

これで修正されました:

HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.GetEncoding(932);
doc = web.Load(url);

コード ページ 932 を見つけるために読み込まれた後、HtmlDocument の Encoding プロパティを調べました。検出されたにもかかわらず、最初の読み取りでは使用されませんでした。UTF8 は適切なエンコーディングではありませんでした。

于 2013-08-18T00:07:20.813 に答える