2

Outlookから保存した電子メールをテキストのみとしてデコードする必要があります。残念ながら、それらには特別な「スマートクォート」文字が含まれているため、単純なISO-8859-1ではありません。Outlookで使用されるコードページには実際の名前(Pythonでunicode.decode()に渡すことができます)がありますか、それとも手動でデコードする必要がある任意のナンセンスで構成されていますか?もしそうなら、Microsoftが追加したすべての「特殊」文字のリファレンスを誰かが持っていますか?

4

2 に答える 2

2

Outlookが現在のロケールでメッセージを保存する可能性が非常に高いです。私の推測では、Windows-1252です。

Nitpick:あなたが「スマートクォート」と呼ぶものは、実際にはクォートがどのように見えるかということです。投稿で使用している引用符は、「タイプライター引用符」と呼ばれます。メカニックタイプライターにとって、キーの数は主要なコスト要因であり、引用符は互いに非常によく似ており、インチの記号は1つのキーに統合されており、美学は損なわれています。

于 2011-01-27T12:34:41.237 に答える
1

多くの(ロケールに依存する)Windowsコードページがあるため、最悪の場合、送信者が居住する国によって異なります。

于 2011-01-27T12:34:56.260 に答える