Webページからすべてのリンクを抽出したいと思います。これが私のこれまでのコードです。
import mechanize
import lxml.html
from time import sleep
links = list()
visited_links = list()
br = mechanize.Browser()
def findLinks(url):
response = br.open(url)
visited_links.append(response.geturl())
for link in br.links():
response = br.follow_link(link)
links.append(response.geturl())
sleep(1)
findLinks("http://temelelektronik.net")
for link in links:
if link in visited_links:
links.remove(link)
else:
findLinks(link)
print link
for link in visited_links:
print link
実際、私はWebクローラーを作成したくありません。私がやりたいのは、Webページからすべてのリンクを抽出し、サイトマップを作成することです。また、mechanizeとpythonを使用して、サーバーからファイルの最終変更時刻を取得できるかどうかも疑問に思います。
私が聞きたいのは、このコードスニペットがHTMLページで正常に機能している間です。phpページからリンクを抽出しません。たとえば、このページ。phpページからリンクを抽出するにはどうすればよいですか?
どんな助けでもいただければ幸いです。ありがとう..