9

WebSphinxアプリケーションを試しました。

wikipedia.orgを開始URLとして指定すると、それ以上クロールされないことに気付きました。

したがって、実際にウィキペディア全体をクロールする方法は?誰かがいくつかのガイドラインを教えてもらえますか?具体的にそれらのURLを見つけて、複数の開始URLを配置する必要がありますか?

誰かがWebSphinxのAPIを使用したチュートリアルで良いウェブサイトの提案がありますか?

4

6 に答える 6

48

ウィキペディア全体をクロールすることが目標である場合は、利用可能なデータベースダンプを確認することをお勧めします。http://download.wikimedia.org/を参照してください。

于 2010-02-22T20:02:59.603 に答える
4

よくわかりませんが、WEbSphinxのUserAgentがウィキペディアのrobots.txtによってブロックされている可能性があります

http://en.wikipedia.org/robots.txt

于 2010-02-22T20:05:47.023 に答える
2

そのために必要な構成を選択できなかったと思います。詳細に切り替え、サブドメインをクロールし、ページサイズと時間を無制限にします。

ただし、WebSphinxはおそらくウィキペディア全体をクロールすることはできません。データが大きくなると速度が低下し、最終的には200MB近くのメモリが使用されて停止します。NutchHeritrixCrawler4jをお勧めします。

于 2012-04-21T13:04:59.847 に答える
0

おそらく、ランダムな記事から始めて、その最初の記事からアクセスできるすべての記事をクロールする必要があります。その検索ツリーが使い果たされたら、新しいランダムな記事から始めます。最も多くの記事につながると思われる用語を検索にシードするか、フロントページの注目の記事から始めることができます。

別の質問:WebSphinxがさらにクロールしなかったのはなぜですか?ウィキペディアは「WebSphinx」として識別されるボットをブロックしますか?

于 2010-02-22T20:03:34.017 に答える
0

上記のウィキペディアデータベースダンプを使用することに加えて、100個のランダムな記事を取得するなどのクエリを実行するためにウィキペディアのAPIを使用できます。

http://www.mediawiki.org/wiki/API:Query_- Lists#random .2F_rn

于 2010-02-23T00:50:13.913 に答える
-1

ウィキペディアの構造化バージョンであるdbpediaをご覧ください。

于 2014-08-19T00:01:10.840 に答える