私のアイデアは、wget を使用して、非常に大きなブログのすべてのスレッドの完全なリストを作成することでした (ブログ自体によると、スレッドの総数は 50,000 です)。--spider モードで wget を使用して Web サイトをクロールし、URL をテキスト ファイルに出力しました。1d 3h 3m 3s wget が作業を完了した後、Web サイトに表示された 50,000 に対して「たった」9668 ファイルを特定しました。wget によると 643 個のリンクが壊れていたので、私の最初のアイデアは、見つからないスレッドが壊れたリンクと何らかの形で関連しているかどうかを確認することでしたが、どうやらそうではありませんでした。ブログのスレッドは、年と月の名前が付いたフォルダー (例: /2012/01/name_of_thread.html) に保存されます。一部の壊れたリンクは、wget がいくつかのスレッドをダウンロードしたフォルダーを参照しているように見えたので、選択したフォルダーのブラックアウトを除外します。
何がうまくいかなかったのかを理解するには、どこから始めればよいですか?