私がやっていることは次のとおりです。
- JavaScript 経由で Web ページの DOM を読み取る
- json文字列への変換
- ajaxとしてpythonに送信
- Python では、json は文字列をオブジェクトにデコードします
私が望むのは、文字の問題を回避するために、json の一部であるテキストを Unicode にすることです。私はこれにbeautifulsoupを使用していました:
from bs4 import *
from bs4.dammit import UnicodeDammit
text_unicode = UnicodeDammit(text, [None, None], "html", True).unicode_markup
しかし、それはjson文字列では機能しません。UnicodeDammit を介して文字列を実行すると、json デコードしようとするとエラーが発生します。
問題は、DOM を収集してもこの問題が自動的に処理されないかどうかさえわかりません。
したがって、まず、一連のテスト Web ページでこれをテストしたいと思います。1 つは utf-8 でエンコードされ、もう 1 つは別のものなどでエンコードされます。たとえば、utf-8 だと思っていてもそうではない場合、間違って見える文字が使用されます。Web ページに記載されているエンコーディングについては、気にしません。これはあまりにも多くの場合間違っています。