私はこの行をページから取り出そうとしています:
$ 55 326
数字を取得するためにこの正規表現を作成しました:
player_info['salary'] = re.compile(r'\$ \d{0,3} \d{1,3}')
テキストを取得するときはbs4を使用し、テキストは「unicode」タイプです。
for a in soup_ntr.find_all('div', id='playerbox'):
player_box_text = a.get_text()
print(type(player_box_text))
結果が出ないようです。私もこのような正規表現で試しました
player_info['salary'] = re.compile(ur'\$ \d{0,3} \d{1,3}')
player_info['salary'] = re.compile(ur'\$ \d{0,3} \d{1,3}', re.UNICODE)
しかし、私はデータを取得するために見つけることができません。私が読んでいるページには、次のヘッダーがあります。
Content-Type: text/html; charset=utf-8
それを理解するための助けを期待してください。