スクレイピングしたい約10の奇妙なサイトがあります。それらのいくつかはワードプレスのブログであり、クラスは異なりますが、同じ html 構造に従っています。その他は、フォーラムまたは他の形式のブログです。
私がスクレイピングしたい情報は一般的です - 投稿の内容、タイムスタンプ、作者、タイトル、コメントです。
私の質問は、ドメインごとに 1 つの個別のスパイダーを作成する必要があるかどうかです。そうでない場合、構成ファイルなどからオプションをロードしてスクレイピングできる汎用スパイダーを作成するにはどうすればよいですか?
コマンドライン経由で場所をロードできるファイルからxpath式をロードできると考えましたが、一部のドメインのスクレイピングで正規表現を使用する必要がある場合とそうでない場合があるため、いくつかの問題があるようselect(expression_here).re(regex)です。