私は分類アルゴリズムに取り組んでいます。そのためには、ウィキメディアからの約 10,000 の静的 HTML ページを含むデータセットが必要です。page-title-1.html .... page-title-10000.html のようなもの
Google を試してみたところ、最善の解決策はhttp://dumps.wikimedia.org/other/static_html_dumps/2008-06/en/からダウンロードすることであることがわかりました。
しかし、欲しいものを手に入れるための使い方がわかりません。
以下のようなファイルがあります
html.lst 2008-Jun-19 17:25:05 692.2M application/octet-stream
images.lst 2008-Jun-19 18:02:09 307.4M application/octet-stream
skins.lst 2008-Jun-19 17:25:06 6.0K application/octet-stream
wikipedia-en-html.tar.7z 2008-Jun-21 16:44:22 14.3G application/x-7z-compressed
*.lst ファイルの処理方法とその内容を知りたいwikipedia-en-html.tar.7z