Windows 7でpython 3.3を使用しています。
if "iso-8859-1" in str(source):
source = source.decode('iso-8859-1')
if "utf-8" in str(source):
source = source.decode('utf-8')
したがって、現在、私のアプリケーションは上記の 2 つの文字セットに対してのみ有効です...しかし、考えられるすべての文字セットをカバーしたいと考えています。
実際、私はこれらの文字セットを Web サイトのソースから手動で見つけています。世界中のすべての Web サイトがこれら 2 つだけではないことを経験しました。Web サイトの HTML ソースに文字セットが表示されないことがあります。したがって、私のアプリケーションはそこに進むことができません!
文字セットを自動的に検出し、それに従ってデコードするにはどうすればよいですか? 可能であれば、例を挙げて詳しく教えてください。重要なリンクも提案できます。