1

私はhtmlページを解析するためにbeautifulsoupとlxmlを使用しています。最初に、次のコードを使用しています

for item in soup.find_all("td", { "class" : re.compile(r"^(s|sb)$") }):
    data_item = (''.join(str(item.find(text=True)))).strip().lower();

次のエラーが発生しました

 data_item = (''.join(str(item.find(text=True)))).strip().lower();
 UnicodeEncodeError: 'ascii' codec can't encode character u'\u2019' in position 24: ordinal not in range(128)

このスレッドから、コードを次のように変更しました

for item in soup.find_all("td", { "class" : re.compile(r"^(s|sb)$") }):
      data_item = u' '.join(item.find(text=True)).encode('utf-8').strip().lower();

次のエラーが発生しました

data_item = u' '.join(item.find(text=True)).encode('utf-8').strip();
TypeError

私は何をすべきか?

4

0 に答える 0