Google を使用してアラートを作成できます。私は約 10 のアラートを作成しましたが、メッセージで「スパム」されたため、「デイリー ダイジェスト」オプションを使用しました。私は今、毎朝、すべてのアラートを含む 1 つのメッセージを受け取ります。個別のアラートには、アラートを RSS フィードに変換するオプションがありますが、組み合わせたものには変換できないことに注意してください。
しかし、私はこの電子メールの構造がどうも気に入らないので、これを何らかの RSS リーダーで読める RSS として見たいと思っています。
Python を使用して電子メールを収集しようとしましたが、lxml と bs4 を使用してそれを解析しましたが、非常に面倒で一貫性がありません。
そこから素敵な RSS フィード (タイトル、本文、リンク) を作成する方法を知っている人はいますか?
私は電子メールから html を抽出することができます。ここでは、興味のある人のために html を簡単に操作できます。
sp = BeautifulSoup('path/to/html')
for span in sp.findAll('span'):
link = span.find('a')
if link is not None and hasattr(link, 'href'):
print(link.text)
17 件の投稿があるにもかかわらず、22 件のリンク テキストが表示されます。
問題は、リンクとテキストでさえ一貫して配置されていないことです。
これは私が得たのと同じくらい近いですlxml.html
:
tr = lxml.html.fromstring('path/to/html')
links = tr.xpath('//table/tr/td/div/span/a')
len(links) == 16 # not 17
True