0

Google を使用してアラートを作成できます。私は約 10 のアラートを作成しましたが、メッセージで「スパム」されたため、「デイリー ダイジェスト」オプションを使用しました。私は今、毎朝、すべてのアラートを含む 1 つのメッセージを受け取ります。個別のアラートには、アラートを RSS フィードに変換するオプションがありますが、組み合わせたものには変換できないことに注意してください。

しかし、私はこの電子メールの構造がどうも気に入らないので、これを何らかの RSS リーダーで読める RSS として見たいと思っています。

Python を使用して電子メールを収集しようとしましたが、lxml と bs4 を使用してそれを解析しましたが、非常に面倒で一貫性がありません。

そこから素敵な RSS フィード (タイトル、本文、リンク) を作成する方法を知っている人はいますか?

私は電子メールから html を抽出することができます。ここでは、興味のある人のために html を簡単に操作できます。

sp = BeautifulSoup('path/to/html')
for span in sp.findAll('span'):
    link = span.find('a')
    if link is not None and hasattr(link, 'href'):
        print(link.text)

17 件の投稿があるにもかかわらず、22 件のリンク テキストが表示されます。

問題は、リンクとテキストでさえ一貫して配置されていないことです。

これは私が得たのと同じくらい近いですlxml.html:

tr = lxml.html.fromstring('path/to/html')
links = tr.xpath('//table/tr/td/div/span/a')

len(links) == 16    # not 17
True
4

1 に答える 1