すべての異なる言語を処理するために生のユニコードで大量のテキストを出力する素敵なスクリプトを手に入れました。
このスクリプトは、アスキー文字および非ラテン語ベースの言語 (ヒンディー語、中国語など) で正常に動作します。
ただし、「é」「è」などの文字の生の値を出力することはできません...
生の Unicode 値 \u00E9 をファイルの print "é" に出力する代わりに、Web ページにひし形の尋問マークを表示します。
f = codecs.open(newFilePathAndName(path,filename,language),encoding='raw_unicode_escape', mode='w')
...
f.write(outputString)
スクリプトで「印刷」を実行すると、文字が \xe9 として表示されます
何か案は ?
頭に浮かぶのは、\xe を \u00 に置き換える正規表現を配置することだけです