python - スクレイピーで複数のドメインをスクレイピングする最良の方法は何ですか?

Question

スクレイピングしたい約10の奇妙なサイトがあります。それらのいくつかはワードプレスのブログであり、クラスは異なりますが、同じ html 構造に従っています。その他は、フォーラムまたは他の形式のブログです。

私がスクレイピングしたい情報は一般的です - 投稿の内容、タイムスタンプ、作者、タイトル、コメントです。

私の質問は、ドメインごとに 1 つの個別のスパイダーを作成する必要があるかどうかです。そうでない場合、構成ファイルなどからオプションをロードしてスクレイピングできる汎用スパイダーを作成するにはどうすればよいですか?

コマンドライン経由で場所をロードできるファイルからxpath式をロードできると考えましたが、一部のドメインのスクレイピングで正規表現を使用する必要がある場合とそうでない場合があるため、いくつかの問題があるようselect(expression_here).re(regex)です。

score 2 · Accepted Answer

スクレイピースパイダーで、allowed_domains をドメインのリストに設定します。例:

class YourSpider(CrawlSpider):    
   allowed_domains = [ 'domain1.com','domain2.com' ]

それが役に立てば幸い

score 1 · Accepted Answer

次の XPath 式を使用して、同じことを行います。

score 1 · Accepted Answer

空のallowed_domains属性を使用して、scrapy にオフサイトリクエストをフィルタリングしないように指示できます。ただし、その場合は注意が必要であり、スパイダーから関連するリクエストのみを返す必要があります。

score 0 · Accepted Answer

特に Python を使用している場合は、BeautifulSoup を使用する必要があります。ページ内の要素を検索し、正規表現を使用してテキストを抽出できます。

6 に答える 6