私が正しく理解している場合は、その後の抽出のために、画像のsrcを探しています。
まず、(インスペクターを使用して) HTML 内のどの位置に画像があるかを見つける必要があります。たとえば、サッカー チームの盾を解体するパーティクルのケースでは、次のものが必要でした。
m_url = 'http://www.marca.com/futbol/primera/equipos.html'
client = uOpen(m_url)
page = client.read()
client.close()
page_soup = BS(page, 'html.parser')
teams = page_soup.findAll('li', {'id': 'nombreEquipo'})
for team in teams:
name = team.h2.text
shield_url = team.img['src']
次に、画像を処理する必要があります。オプションが必要です。
1番目: numpyを使用:
def url_to_image(url):
'''
Función para extraer una imagen de una URL
'''
resp = uOpen(url)
image = np.asarray(bytearray(resp.read()), dtype='uint8')
image = cv2.imdecode(image, cv2.IMREAD_COLOR)
return image
盾 = url_to_image(shield_url)
2番目のscikit-imageライブラリの使用(おそらくインストールする必要があります):
shield = io.imread('http:' + shield_url)
注:この特定の例では、最初に http: を追加する必要がありました。
それが役に立てば幸い!