5

ページの一部の要素を Web でスクレイピングしているときに、奇妙な文字に遭遇しました。エラーになると思われる文字は次のとおりです。

? ?? ??Á¢¢Á? /?? />? /??? ?/¢¥Á ??%% ?Á ? ????Á? ?> /???¥??> ¥? ¥©Á ?>¢¥/%%/¥??> ? >Á? ?Á ©???¢ ñ%Á?¥???/% Á%Á?¥??>?? />? ??Á? ??¥?? ??¢¥????¥??> ¢`¢¥Á ¢ ??%% ?Á ??À?/?Á? 円?_ÁÁ¥ ?>??Á/¢?>À Á???? Á>¥?? ??\Á? />? ??__?>??/¥??>¢ ?Á

関連する私のコードは以下のとおりです

url= "http://www.nsf.gov#######@#@#@##";
    #webbrowser.open(url,new =new );
    flagcnt+=1
    if flagcnt%20==0: #autosleep for avoiding shut-out
        print "flagcount: "
        print flagcnt
        time.sleep(5)
     #Program Code extraction
    r = requests.get (url)
    sp=BeautifulSoup(r.content)

ページ : http://www.nsf.gov/awardsearch

このエラーに関するすべてのページを読んで、デコードとエンコードを示唆するものもありましたが、役に立たないようです。ここでどのエンコードが使用されているかわかりません。どんな助けでも大歓迎です。パイソン 2.7BS4

4

1 に答える 1

12

これは私のために働く:

page_text = r.text.encode('utf-8').decode('ascii', 'ignore')
page_soupy = BeautifulSoup.BeautifulSoup(page_text)
于 2015-04-17T01:29:08.973 に答える