3

中国語版ウィキペディアのすべてのデータ(テキスト+画像)をダウンロードしたいのですが、記事をダウンロードしましたが、これらのメディアファイルと混同しました。また、リモートメディアファイルは途方もなく巨大ですが、何ですか?それらをダウンロードする必要がありますか?

差出人:http ://ftpmirror.your.org/pub/wikimedia/imagedumps/tarballs/fulls/20121104/

zhwiki-20121104-local-media-1.tar   4.1G
zhwiki-20121104-remote-media-1.tar  69.9G
zhwiki-20121104-remote-media-2.tar  71.1G
zhwiki-20121104-remote-media-3.tar  69.3G
zhwiki-20121104-remote-media-4.tar  48.9G

ありがとう!

4

1 に答える 1

1

それらはウィキメディア コモンズに含まれるメディア ファイルであり、記事内のほとんどの画像であると思います。https://wikitech.wikimedia.org/wiki/Dumps/mediaから:

ウィキごとに、/backups/imageinfo/wmfgetremoteimages.py を介してイメージ、イメージリンク、およびリダイレクト テーブルをダンプします。ファイルは、dataset2 の /data/xmldatadumps/public/other/imageinfo/ に書き込まれます。

上記から、同じスクリプトに異なる引数を使用して、ウィキごとにリモートに保存されている (つまり、コモンズにある) メディアのリストを生成します。

そして、中国語のウィキペディアのすべてのファイルにとってそれほど巨大ではありません:-)

于 2013-03-12T13:25:59.817 に答える