Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
2013年1月1日以降にアップロードされたTechcrunchのページをクロールしたい.Webサイトはパターンに従っています
http://www.techcrunch.com/YYYY/MM/DD
したがって、私の質問は、必要なページのみをクロールできるように、urlfilter で正規表現を設定する方法です。
+^http://www.techcrunch.com/2013/dd/dd/([a-z0-9\-A-Z]*\/)*
ちょっとわかりませんが、試してみますか:
+^http://www.techcrunch.com/2013/[0-9]{2}/[0-9]{2}.*$
また
+^http://www.techcrunch.com/2013/[0-9]+/[0-9]+.*$