python - Python を使用した正規表現と BeautifulSoup

Question

Web ページ (html) を解析 (スクラップ) して情報を取得し、csv に保存する必要があります。

Regex と BeautifulSoup の両方を使用してこれを行う必要があり、Python の経験はまったくありません。

コードに応じて誰かが私を案内してくれれば、本当に感謝しています。PythonとBeautifulSoupをインストールできました。

score 1 · Accepted Answer

Python 3 の場合: 次のコマンドで Web ページを読み取ります。

import urllib.request

your_url = "http://stackoverflow.com/"   # for example

opener = urllib.request.FancyURLopener({})
f = opener.open( your_url )
vr = f.read()
vr = vr.decode()
print( vr )

そして、たとえば次のような正規表現に一致させます。

import re

re_flags = ( re.MULTILINE | re.IGNORECASE | re.UNICODE )
m = re.search( r"<div>\s*(\d*)\s*</div>" , vr , re_flags )
if m :
    print( m.groups()[0] )

正規表現が見つかった場合、一致した文字列は m.groups()[0] に書き込まれます

そして明らかに、re.search では個人の正規表現を使用する必要があります。

訪問: http://docs.python.org/library/re.html

score 0 · Accepted Answer

指定しなかったため、HTMLを解析する方法はbeautifulsoup docです..

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#Parsing a Document

正規表現、Giggiが提案したようなドキュメントを読んでください。特に何かを理解していない場合は、遠慮なく質問してください。より具体的な情報が必要です。正確に何を解析したいですか? 入力 HTML とは何ですか?また、結果として何を期待しますか?

python - Python を使用した正規表現と BeautifulSoup

2 に答える 2

Related

Reference