http://en.wikipedia.org/wiki/Category:People_by_occupationから人々のリストを取得しようとしています。私はすべてのセクションを通過し、各セクションから人々を取得する必要があります。
どうすればいいですか?クローラーを使用してページを取得し、BeautifulSoupを使用してページを検索する必要がありますか?
または、ウィキペディアから同じものを入手する他の方法はありますか?
http://en.wikipedia.org/wiki/Category:People_by_occupationから人々のリストを取得しようとしています。私はすべてのセクションを通過し、各セクションから人々を取得する必要があります。
どうすればいいですか?クローラーを使用してページを取得し、BeautifulSoupを使用してページを検索する必要がありますか?
または、ウィキペディアから同じものを入手する他の方法はありますか?
Pywikipediabotpythonプロジェクトを使用します。
category.pyをご覧ください。あなたが使用することができます:
* tree - show a tree of subcategories of a given category
* listify - make a list of all of the articles that are in a category
必要に応じて、ウィキペディアのダンプ全体をダウンロードして、そこから作業することができます。おそらく必要なのは、2010年2月3日付けの記事ダンプだけです。ただし、注意してください。サイズは5.6GBです。
CatScanツールを使用してカテゴリを検索できます。
ここでの説明
http://meta.wikimedia.org/wiki/CatScan
検索例-注:html形式は最大1000件の結果になります。CSVエクスポートを選択して、すべての結果を取得します。また、必要に応じて、カテゴリの深さやその他のオプションを必ず変更してください。
すでに述べたpywikipediabotは別のオプションです。