インデックスページのデータまたは情報に基づいて特定のページをクロールするスパイダーを作成しようとしています。そして、結果をデータベースに保存します。
たとえば、stackoverflow.com / questions / tags / scrapyをクロールしたいとします。インデックスページを確認します。質問がデータベースにない場合は、回答数をデータベースに保存してから、次の手順に従います。質問のリンクとそのページをクロールします。
質問がすでにデータベースにあるが、回答の数がデータベースの数よりも多い場合は、そのページをもう一度クロールします。
質問がすでにデータベースにあり、回答カウンターが同じである場合:この質問をスキップしてください。
現時点では、インデックスページですべてのリンクと回答数(この例では)を取得できました。しかし、回答数に基づいて質問ページへのリンクをたどるようにスパイダーを作成する方法がわかりません。
2つのスパイダーではなく1つのスパイダーでこれを行う方法はありますか?1つのスパイダーはインデックスページのすべてのリンクを取得し、データをデータベースと比較し、jsonまたはcsvファイルをエクスポートしてから別のスパイダーに渡します質問ページをクロールしますか?