私は次のコードを持っています:
import re
from bs4 import BeautifulSoup
f = open('AIDNIndustrySearchAll.txt', 'r')
g = open('AIDNurl.txt', 'w')
t = f.read()
soup = BeautifulSoup(t)
list = []
counter = 0
for link in soup.find_all("a"):
a = link.get('href')
if re.search("V", a) != None:
list.append(a)
counter = counter + 1
new_list = ['http://www.aidn.org.au/{0}'.format(i) for i in list]
output = "\n".join(i for i in new_list)
g.write(output)
print output
print counter
f.close()
g.close()
基本的には、保存されたHTMLページを調べて、興味のあるリンクを取得します。Pythonは初めてなので、コードはひどいものですが、(ほぼ)機能しています;)
現在の問題は、各リンクの1つではなく2つのコピーを返すことです。ループの設定方法と関係があると思いますが、少し行き詰まっています。
この質問に関するヘルプ(必要に応じて、HTMLや探しているリンクに関する詳細情報など)や一般的なコードの改善を歓迎します。これにより、可能な限り多くのことを学ぶことができます。