3

xml からウィキペディアのページを解析しようとしています。Special:Export リンクを使用して、次のようなリンクを含むページの xml を取得しています。

http://en.wikipedia.org/wiki/Special:Export/Bruce_Willis

しかし、ファイルまたはカテゴリ ページを取得しようとすると、このリンクを使用できません。たとえば、このページは xml を返しません。

http:// en.wikipedia.org/wiki/Special:Export/Category:English-language_films

http:// en.wikipedia.org/wiki/Special:Export/File:Bruce_Willis_by_Gage_Skidmore.jpg

解決策を見つけましたが、理解できません:

  1. 選択した名前空間がメインの名前空間でない限り、名前空間をページ名の前に付けます (例: 'Help:Contents')。
  2. 上記の手順を他の名前空間 (Category:、Template: など) に対して繰り返します。

http://meta.wikimedia.org/wiki/Help:Exportで見つけたこのソリューション。これはどういう意味ですか。

ありがとうございました。

4

1 に答える 1

4

Special:Export特定のページのコンテンツを生成しますが、「カテゴリの記事のリスト」または「ファイル」はページではありません。Export から得られるのは、カテゴリまたはファイルの説明ページの xml のみです。

特定のカテゴリに属する​​ページのリストを取得するには、MediaWiki API が必要です:Categorymembers.

この例を試してください。API サンドボックスをいじって、さまざまなパラメーターを理解することもできます。

ファイルを直接ダウンロードすることはできません。ただし、この例imageinfoのように、API はファイルへの URL を生成できます。

関連項目: MediaWiki API で画像をダウンロードしますか?

于 2013-02-13T00:10:28.890 に答える