3

http://en.wikipedia.org/wiki/Category:People_by_occupationから人々のリストを取得しようとしています。私はすべてのセクションを通過し、各セクションから人々を取得する必要があります。

どうすればいいですか?クローラーを使用してページを取得し、BeautifulSoupを使用してページを検索する必要がありますか?
または、ウィキペディアから同じものを入手する他の方法はありますか?

4

3 に答える 3

3

Pywikipediabotpythonプロジェクトを使用します。

category.pyをご覧ください。あなたが使用することができます:

* tree        - show a tree of subcategories of a given category
* listify     - make a list of all of the articles that are in a category
于 2010-03-28T19:58:18.577 に答える
1

必要に応じて、ウィキペディアのダンプ全体をダウンロードして、そこから作業することができます。おそらく必要なのは、2010年2月3日付けの記事ダンプだけです。ただし、注意してください。サイズは5.6GBです。

于 2010-03-28T18:38:00.170 に答える
1

CatScanツールを使用してカテゴリを検索できます。

ここでの説明
http://meta.wikimedia.org/wiki/CatScan

検索例-注:html形式は最大1000件の結果になります。CSVエクスポートを選択して、すべての結果を取得します。また、必要に応じて、カテゴリの深さやその他のオプションを必ず変更してください。

すでに述べたpywikipediabotは別のオプションです。

于 2010-04-05T21:00:33.867 に答える