ウィキペディアのリンクチェーンが有効かどうかを確認するPythonスクリプトを作成しています。たとえば、チェーン
List of jōyō kanji > Elementary schools in Japan > Education > Knowledge
リンクをクリックするだけで各ページにアクセスできるため、有効なページです。
ここでの問題は、これらのページが非常に長く、ページ全体をダウンロードし、リンクがページにあるかどうかを確認し、すべての手順を繰り返すのに長い時間がかかることです。そして、チェーンも長くなる可能性があります。
したがって、私が知りたいのは、 urllib2
(または他のライブラリ)を使用して各ページをダウンロードし、必要に応じて停止するように指示できるかどうか、またはこれによってCPUの負荷が高まり、事態が悪化するかどうかです。