人々やグーグルがページを知るのに役立つサイトマップが必要です。WebSphinx アプリケーションを試しました。
wikipedia.org を開始 URL として指定すると、それ以上クロールされないことがわかりました。
したがって、ウィキペディア全体を実際にクロールするにはどうすればよいでしょうか。誰でもいくつかのガイドラインを教えてもらえますか? 具体的にそれらの URL を見つけて、複数の開始 URL を配置する必要がありますか?
WebSphinx の API を使用したチュートリアルで、良い Web サイトを提案してくれる人はいますか?