java - ウィキペディア全体をクロールする方法は？

Question

WebSphinxアプリケーションを試しました。

wikipedia.orgを開始URLとして指定すると、それ以上クロールされないことに気付きました。

したがって、実際にウィキペディア全体をクロールする方法は？誰かがいくつかのガイドラインを教えてもらえますか？具体的にそれらのURLを見つけて、複数の開始URLを配置する必要がありますか？

誰かがWebSphinxのAPIを使用したチュートリアルで良いウェブサイトの提案がありますか？

score 48 · Accepted Answer

ウィキペディア全体をクロールすることが目標である場合は、利用可能なデータベースダンプを確認することをお勧めします。http://download.wikimedia.org/を参照してください。

score 4 · Accepted Answer

よくわかりませんが、WEbSphinxのUserAgentがウィキペディアのrobots.txtによってブロックされている可能性があります

score 2 · Accepted Answer

そのために必要な構成を選択できなかったと思います。詳細に切り替え、サブドメインをクロールし、ページサイズと時間を無制限にします。

ただし、WebSphinxはおそらくウィキペディア全体をクロールすることはできません。データが大きくなると速度が低下し、最終的には200MB近くのメモリが使用されて停止します。Nutch、Heritrix、Crawler4jをお勧めします。

score 0 · Accepted Answer

おそらく、ランダムな記事から始めて、その最初の記事からアクセスできるすべての記事をクロールする必要があります。その検索ツリーが使い果たされたら、新しいランダムな記事から始めます。最も多くの記事につながると思われる用語を検索にシードするか、フロントページの注目の記事から始めることができます。

別の質問：WebSphinxがさらにクロールしなかったのはなぜですか？ウィキペディアは「WebSphinx」として識別されるボットをブロックしますか？

score 0 · Accepted Answer

上記のウィキペディアデータベースダンプを使用することに加えて、100個のランダムな記事を取得するなどのクエリを実行するためにウィキペディアのAPIを使用できます。

score -1 · Accepted Answer

-1

ウィキペディアの構造化バージョンであるdbpediaをご覧ください。

于 2014-08-19T00:01:10.840 に答える

6 に答える 6