Web ページ (html) を解析 (スクラップ) して情報を取得し、csv に保存する必要があります。
Regex と BeautifulSoup の両方を使用してこれを行う必要があり、Python の経験はまったくありません。
コードに応じて誰かが私を案内してくれれば、本当に感謝しています。PythonとBeautifulSoupをインストールできました。
Web ページ (html) を解析 (スクラップ) して情報を取得し、csv に保存する必要があります。
Regex と BeautifulSoup の両方を使用してこれを行う必要があり、Python の経験はまったくありません。
コードに応じて誰かが私を案内してくれれば、本当に感謝しています。PythonとBeautifulSoupをインストールできました。
Python 3 の場合: 次のコマンドで Web ページを読み取ります。
import urllib.request
your_url = "http://stackoverflow.com/" # for example
opener = urllib.request.FancyURLopener({})
f = opener.open( your_url )
vr = f.read()
vr = vr.decode()
print( vr )
そして、たとえば次のような正規表現に一致させます。
import re
re_flags = ( re.MULTILINE | re.IGNORECASE | re.UNICODE )
m = re.search( r"<div>\s*(\d*)\s*</div>" , vr , re_flags )
if m :
print( m.groups()[0] )
正規表現が見つかった場合、一致した文字列は m.groups()[0] に書き込まれます
そして明らかに、re.search では個人の正規表現を使用する必要があります。
指定しなかったため、HTMLを解析する方法はbeautifulsoup docです..
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#Parsing a Document
正規表現、Giggiが提案したようなドキュメントを読んでください。特に何かを理解していない場合は、遠慮なく質問してください。より具体的な情報が必要です。正確に何を解析したいですか? 入力 HTML とは何ですか?また、結果として何を期待しますか?