python - Beautiful Soupを使用してPythonでWebページを解析する

Question

ウェブサイトからデータを取得する際に問題があります。ウェブサイトのソースは次のとおりです。

view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO

次のようなものがあります：

インフォマチェ・オ・フィルム
タイトル................................................................................: La mer à boire
オセナ................................................................: IMDB - 6.3 /10 (24)
製品................................................................: Francja
ガツネク...................................................................:ドラマト
Czas trwania.................................................................: 98 分
プレミア.................................................: 22.02.2012 - Świat
Reżyseria................................................................: Jacques Maillot
シナリオ................................................................: ピエール・ショソン、ジャック・マイヨ
Aktorzy................................................................: Daniel Auteuil、Maud Wyler 、ヤン・トレグエ、アラン・ベイゲル

そして、このウェブサイトからデータを取得して、Python の文字列リストを取得したいと考えています。

[[Tytuł, "La mer à boire"]
[Ocena, "IMDB - 6.3/10 (24)"]
[Produkcja, Francja]
[Gatunek, Dramat]
[Czas trwania, 98 min.]
[Premiera, "22.02.2012 - Świat"]
[Reżyseria, "Jacques Maillot"]
[Scenariusz, "Pierre Chosson, Jacques Maillot"]
[Aktorzy, "Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel"]]

BeautifulSoup を使用していくつかのコードを書きましたが、それ以上先に進むことはできません。Web サイトのソースから残りを取得する方法と、文字列への変換方法がわかりません。助けてください!

私のコード:

    # -*- coding: utf-8 -*-
#!/usr/bin/env python

import urllib2
from bs4 import BeautifulSoup

try :
    web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
    soup = BeautifulSoup(web_page)
    c = soup.find('span', {'class':'vi'}).contents
    print(c)
except urllib2.HTTPError :
    print("HTTPERROR!")
except urllib2.URLError :
    print("URLERROR!")

score 14 · Accepted Answer

BeautifulSoupを使用する秘訣は、HTMLドキュメントの隠されたパターンを見つけることです。たとえば、ループ

for ul in soup.findAll('p') :
    print(ul)

は正しい方向ですが、探している段落だけでなく、すべての段落が返されます。ただし、探している段落には、クラスを持つという便利な特性がありますi。これらの段落の中には、2つのスパンがあります。1つはクラスiを持ち、もう1つはクラスを持ちviます。これらのスパンには、探しているデータが含まれているため、幸運です。

<p class="i">
    <span class="i">Tytuł............................................</span>
    <span class="vi">: La mer à boire</span>
</p>

したがって、最初に、指定されたクラスのすべての段落を取得します。

>>> ps = soup.findAll('p', {'class': 'i'})
>>> ps
[<p class="i"><span class="i">Tytuł... <LOTS OF STUFF> ...pan></p>]

ここで、リスト内包表記を使用して、ペアのリストを生成できます。各ペアには、段落の最初と2番目のスパンが含まれています。

>>> spans = [(p.find('span', {'class': 'i'}), p.find('span', {'class': 'vi'})) for p in ps]
>>> spans
[(<span class="i">Tyt... ...</span>, <span class="vi">: La mer à boire</span>), 
 (<span class="i">Ocena... ...</span>, <span class="vi">: IMDB - 6.3/10 (24)</span>),
 (<span class="i">Produkcja.. ...</span>, <span class="vi">: Francja</span>),
 # and so on
]

スパンができたので、それらからテキストを取得できます。

>>> texts = [(span_i.text, span_vi.text) for span_i, span_vi in spans]
>>> texts
[(u'Tytu\u0142............................................', u': La mer \xe0 boire'),
 (u'Ocena.............................................', u': IMDB - 6.3/10 (24)'),
 (u'Produkcja.........................................', u': Francja'), 
  # and so on
]

それらのテキストはまだ大丈夫ではありませんが、修正するのは簡単です。最初のドットからドットを削除するには、次を使用できますrstrip()。

>>> u'Produkcja.........................................'.rstrip('.')
u'Produkcja'

文字列は次の:ように削除できますlstrip()：

>>> u': Francja'.lstrip(': ')
u'Francja'

すべてのコンテンツに適用するには、別のリスト内包表記が必要です。

>>> result = [(text_i.rstrip('.'), text_vi.replace(': ', '')) for text_i, text_vi in texts]
>>> result
[(u'Tytu\u0142', u'La mer \xe0 boire'),
 (u'Ocena', u'IMDB - 6.3/10 (24)'),
 (u'Produkcja', u'Francja'),
 (u'Gatunek', u'Dramat'),
 (u'Czas trwania', u'98 min.'),
 (u'Premiera', u'22.02.2012 - \u015awiat'),
 (u'Re\u017cyseria', u'Jacques Maillot'),
 (u'Scenariusz', u'Pierre Chosson, Jacques Maillot'),
 (u'Aktorzy', u'Daniel Auteuil, Maud Wyler, Yann Tr&eacute;gou&euml;t, Alain Beigel'),
 (u'Wi\u0119cej na', u':'),
 (u'Trailer', u':Obejrzyj zwiastun')]

そしてそれだけです。このステップバイステップの例で、BeautifulSoupの使用がより明確になることを願っています。

score 0 · Accepted Answer

これにより、リストが取得されます。末尾の「....」を削除し、文字列を変換するには、コードを記述する必要があります。

    import urllib2
    from bs4 import BeautifulSoup

     try :
 web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
soup = BeautifulSoup(web_page)
LIST = []
for p in soup.findAll('p'):
    s = p.find('span',{ "class" : 'i' })
    t = p.find('span',{ "class" : 'vi' })
    if s and t:
        p_list = [s.string,t.string]
        LIST.append(p_list)

urllib2.HTTPErrorを除く：print（ "HTTPERROR！"）urllib2.URLErrorを除く：print（ "URLERROR！"）

python - Beautiful Soupを使用してPythonでWebページを解析する

インフォマチェ・オ・フィルム

2 に答える 2

Related

Reference