私は自分の学校で詐欺メールを比較したいプロジェクトを行っています。私はこのウェブサイトを見つけました:http ://www.419scam.org/emails/ 今私がしたいのは、すべての詐欺を別々の文書に保存し、後でそれらを分析することです。これまでの私のコードは次のとおりです。
import BeautifulSoup, urllib2
address='http://www.419scam.org/emails/'
html = urllib2.urlopen(address).read()
f = open('test.txt', 'wb')
f.write(html)
f.close()
これにより、htmlファイル全体がテキスト形式で保存されます。次に、ファイルを削除して、詐欺へのhtmlリンクのコンテンツを保存します。
<a href="2011-12/01/index.htm">01</a>
<a href="2011-12/02/index.htm">02</a>
<a href="2011-12/03/index.htm">03</a>
等
それがわかった場合でも、さらに一歩進んで、別のhrefを保存して開く必要があります。1つのPythonコードでそれをどのように行うのですか?
ありがとうございました!