ウェブサイトからデータを取得する際に問題があります。ウェブサイトのソースは次のとおりです。
view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO
次のようなものがあります:
インフォマチェ・オ・フィルム
タイトル................................................................................: La mer à boireオセナ................................................................: IMDB - 6.3 /10 (24)製品................................................................: Francjaガツネク...................................................................:ドラマトCzas trwania.................................................................: 98 分プレミア.................................................: 22.02.2012 - ŚwiatReżyseria................................................................: Jacques Maillotシナリオ................................................................: ピエール・ショソン、ジャック・マイヨAktorzy................................................................: Daniel Auteuil、Maud Wyler 、ヤン・トレグエ、アラン・ベイゲル
そして、このウェブサイトからデータを取得して、Python の文字列リストを取得したいと考えています。
[[Tytuł, "La mer à boire"]
[Ocena, "IMDB - 6.3/10 (24)"]
[Produkcja, Francja]
[Gatunek, Dramat]
[Czas trwania, 98 min.]
[Premiera, "22.02.2012 - Świat"]
[Reżyseria, "Jacques Maillot"]
[Scenariusz, "Pierre Chosson, Jacques Maillot"]
[Aktorzy, "Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel"]]
BeautifulSoup を使用していくつかのコードを書きましたが、それ以上先に進むことはできません。Web サイトのソースから残りを取得する方法と、文字列への変換方法がわかりません。助けてください!
私のコード:
# -*- coding: utf-8 -*-
#!/usr/bin/env python
import urllib2
from bs4 import BeautifulSoup
try :
web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
soup = BeautifulSoup(web_page)
c = soup.find('span', {'class':'vi'}).contents
print(c)
except urllib2.HTTPError :
print("HTTPERROR!")
except urllib2.URLError :
print("URLERROR!")