ページのソースから一連の URL (Twitter リンク) を見つけて、それらをテキスト ドキュメントのリストに入れようとしています。私が抱えている問題は、urlopen オブジェクトを .readlines() すると、1 つずつ収集する必要がある数十の URL で構成される合計 3 ~ 4 行になることです。これは、これを修正しようとするコードのスニペットです。
page = html.readlines()
for line in page:
ind_start = line.find('twitter')
ind_end = line.find('</a>', ind_start+1)
while ('twitter' in line[ind_start:ind_end]):
output.write(line[ind_start:ind_end] + "\n")
ind_start = line.find('twitter', ind_start)
ind_end = line.find('</a>', ind_start + 1)
残念ながら、これを使用して URL を抽出することはできません。何かアドバイス?