-1

人々やグーグルがページを知るのに役立つサイトマップが必要です。WebSphinx アプリケーションを試しました。

wikipedia.org を開始 URL として指定すると、それ以上クロールされないことがわかりました。

したがって、ウィキペディア全体を実際にクロールするにはどうすればよいでしょうか。誰でもいくつかのガイドラインを教えてもらえますか? 具体的にそれらの URL を見つけて、複数の開始 URL を配置する必要がありますか?

WebSphinx の API を使用したチュートリアルで、良い Web サイトを提案してくれる人はいますか?

4

1 に答える 1

0

ウィキペディアをクロールするのは悪い考えです。圧縮されていない数百 TB のデータです。ウィキペディアが提供するさまざまなダンプを使用して、オフラインでクロールすることをお勧めします。ここで見つけてくださいhttps://dumps.wikimedia.org/

ページ メタ情報、外部リンク、ウィキ間リンク、リダイレクト データベースなどを使用して、ウィキペディアのサイトマップを作成できます。

于 2015-07-10T23:59:55.890 に答える