WebSphinxアプリケーションを試しました。
wikipedia.orgを開始URLとして指定すると、それ以上クロールされないことに気付きました。
したがって、実際にウィキペディア全体をクロールする方法は?誰かがいくつかのガイドラインを教えてもらえますか?具体的にそれらのURLを見つけて、複数の開始URLを配置する必要がありますか?
誰かがWebSphinxのAPIを使用したチュートリアルで良いウェブサイトの提案がありますか?
WebSphinxアプリケーションを試しました。
wikipedia.orgを開始URLとして指定すると、それ以上クロールされないことに気付きました。
したがって、実際にウィキペディア全体をクロールする方法は?誰かがいくつかのガイドラインを教えてもらえますか?具体的にそれらのURLを見つけて、複数の開始URLを配置する必要がありますか?
誰かがWebSphinxのAPIを使用したチュートリアルで良いウェブサイトの提案がありますか?
ウィキペディア全体をクロールすることが目標である場合は、利用可能なデータベースダンプを確認することをお勧めします。http://download.wikimedia.org/を参照してください。
よくわかりませんが、WEbSphinxのUserAgentがウィキペディアのrobots.txtによってブロックされている可能性があります
おそらく、ランダムな記事から始めて、その最初の記事からアクセスできるすべての記事をクロールする必要があります。その検索ツリーが使い果たされたら、新しいランダムな記事から始めます。最も多くの記事につながると思われる用語を検索にシードするか、フロントページの注目の記事から始めることができます。
別の質問:WebSphinxがさらにクロールしなかったのはなぜですか?ウィキペディアは「WebSphinx」として識別されるボットをブロックしますか?
上記のウィキペディアデータベースダンプを使用することに加えて、100個のランダムな記事を取得するなどのクエリを実行するためにウィキペディアのAPIを使用できます。
http://www.mediawiki.org/wiki/API:Query_- Lists#random .2F_rn
ウィキペディアの構造化バージョンであるdbpediaをご覧ください。