私はこの問題に遭遇した最初の人ではないと確信しています。しかし、何時間もデバッグ、グーグル、StackOverflowを行った後、答えが見つからなかったので、この質問を投稿することにしました。何か見落としていたら事前に申し訳ありませんが、今ではかなり混乱しています。
私はBeautifulSoupを使用してUTF-8Webサイトを解析しています。Webサイトのテキストを使用して、さらにクロールするURLを作成しています。英語以外の文字で問題が発生しています。
例:サイトに文字列が含まれていて、Originální formule
それを使用してURLを作成したい:http://blahblah.com/Originální-formule
またはhttp://blahblah.com/origin%C3%A1ln%C3%AD-formule
。問題は、http://blahblah.com/Origin\xe1ln\xed-formule
エラーが発生するということです。エンコード、デコードなどを試みましたが、それでも適切なURLを取得できません。
ところで、私print u'Origin\xe1ln\xed-formule'
がすると、文字列はうまく印刷されます。成功しないのはエンコーディングだけです。
私は何が間違っているのですか?