regex - reを使用してWebページを解析し、見つかった文字列の行を特定する方法は?

Question

次のようなコードを使用して、Python で Web サイトを見ています。

import urllib
import urllib2
import re

aResp = aResp = urllib2.urlopen("http://stackoverflow.com/");

web_pg = aResp.read();

pattern = "<title>Stack Overflow</title>"

m = re.search(pattern, web_pg)

if m:
   print "found"

else:
   print "Nothing found"

そして、この後にタグを見て、その中にテストを取得しようとしています。この情報を見つける簡単な方法はありますか???? もっと単純な場合は、m の行番号とその行の HTML コードを取得する方法を与えるだけで間に合わせることができます。

score 0 · Accepted Answer

テキストをキャプチャするには、次のように () 中かっこを使用します。

import urllib
import urllib2
import re

aResp = aResp = urllib2.urlopen("http://stackoverflow.com/");

web_pg = aResp.read();

pattern = "<title>(.*?)</title>"

m = re.search(pattern, web_pg)

if m:
   print m.group(1)

else:
   print "Nothing found"

.group() 関数は、最初に一致したものを返します。

regex - reを使用してWebページを解析し、見つかった文字列の行を特定する方法は?

1 に答える 1

Related

Reference