3

ウィキペディアは、すべてのページ ビューを 1 時間ごとのテキスト ファイルで提供します。(たとえばhttp://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/を参照)

プロジェクトの場合、2014 年のキーワードとそれに関連するページ ビューを抽出する必要があります。しかし、1 つのファイル (1 時間を表すため、合計 24*365 ファイル) は約 80MB です。これは、手動で行うのが難しい作業になる可能性があります。

私の質問: 1. ファイルを自動的にダウンロードする方法はありますか? (ファイルが適切に構成されているので、これは役に立ちます)

4

2 に答える 2

1

ダウンロード?もちろん、それは簡単です:

wget -r -np http://dumps.wikimedia.org/other/pagecounts-raw/

再帰的な wget がそれを行います。これらのファイルは現在廃止されていることに注意してください。代わりにhttp://dumps.wikimedia.org/other/pagecounts-all-sites/を使用することをお勧めします。

于 2015-07-25T13:50:09.607 に答える
0

私はこのプロジェクトに取り組みました: https://github.com/idio/wikiviews のように呼び出すだけでpython wikiviews 2 2015、2015 年 2 月のすべてのファイルがダウンロードされ、1 つのファイルに結合されます。

于 2015-09-10T18:30:17.553 に答える