Scrapy を使用してサイトをクロールしていますが、Web サイトのブログ投稿 (つまり、ページではない) のみをクロールするように設定する方法があるかどうか疑問に思っています。サイトごとに特定のルールを作成して機能させることもできますが、複数のサイトをクロールする必要がある場合は時間がかかりすぎます。ブログ投稿のみを取得するために、すべてのサイトで普遍的に機能する 1 つのクローラーを用意する方法はありますか? 私はそれを疑っていますが、私の指が交差している天才がこれに対する答えを持っています.
これまでに Scrapy のドキュメントから取得した基本的なコードを次に示します。これを機能させるには何を追加する必要がありますか?
from scrapy.contrib.spiders import CrawlSpider
class MySpider(CrawlSpider):
name = 'crawlit'
allowed_domains = ['example.com']
start_urls = ['http://www.example.com']
def parse_item(self, response):
#do something
PS RSS フィードだけを取得することも考えましたが、RSS フィードには最近の投稿しか表示されません。つまり、特定の日付より古い投稿を取得することはできません。誰かがそれを回避する方法を知らない限り?