奇妙なエンコーディングの問題が発生しています。WebからHTMLドキュメントを解析する必要があり、「Content-Type」文字セットメタデータを使用してエンコードタイプを決定しています。1ページで問題が発生し、「Shift_jis」(日本語)でエンコードされています-パーサーの結果に文字化けした文字が含まれています。
UTF-8を使用して同じドキュメントを解析すると、以前は文字化けしていた文字は正しく解析されますが、他のすべての文字は文字化けします。
ドキュメントに2つの異なるエンコーディングタイプのテキストが含まれていると想定しています。
とにかく、このドキュメントを正しく解析できましたか?
また、私はそうしませんが、すべてのブラウザが問題にうまく対処しているようで、ページをうまく表示しています。
これについての考えを本当に感謝します。
解析する必要のあるページ:http://ao.recruit.co.jp/form.html