Web ページのコンテンツを読んでいて、ウムラウトを含む単語をチェックしています。この単語はページ コンテンツに含まれています。しかし、pythonfind('ü')
関数は単語を見つけていません。
import urllib2
opener = urllib2.build_opener()
page_content = opener.open(url).read()
page_content.find('ü')
検索文字列を u'ü' で変換してみました。次に、エラーは
'SyntaxError: (unicode error) 'utf8' codec can't decode byte 0xfc in position 0'
# - - コーディング: utf-8 - - を .py ファイルで使用しました。
page_content を印刷しました。そこでは、ウムラウト ü が 'ü' に変換されます。page_content.find('ü') で試してみると、問題なく動作しています。これに対するより良い解決策があれば教えてください。
提案をいただければ幸いです。