カテゴリとそのサブカテゴリのウィキペディアのすべての記事を取得しようとしています。
私は現在、wiki API を使用するという問題の小さな部分を把握しています。たとえば、Category:Geographyを探すために、API を使用して Geography のカテゴリを見つけました。
https://en.wikipedia.org/w/api.php?action=query&format=json&list=categorymembers&cmtitle=Category:Geography&cmlimit=100
JSON 応答を取得しました。
{
"batchcomplete":"",
"query":{
"categorymembers":[
{
"pageid":5883021,
"ns":14,
"title":"Category:Branches of geography"
},
{
"pageid":5782300,
"ns":14,
"title":"Category:Geography by place"
},
{
"pageid":8700702,
"ns":14,
"title":"Category:Geography awards and competitions"
},
...
]
}
}
さて、私の問題は、これをどのように利用して Python スクリプトを作成し、すべての記事を実行して収集するかということです。たとえば、最初のカテゴリに入ると、別の問題が発生しました。地理の分岐には、より多くのカテゴリとサブカテゴリが含まれています。記事に到達するまでずっと下に移動し、テキスト ファイルに保存してから、カテゴリを上に移動してさらに収集するスクリプトを作成するにはどうすればよいですか?