dataset - Wiki から 10.000 の静的 HTML ページのデータセットを取得する方法

翻译自：https://stackoverflow.com/questions/17413215 2013-07-01T20:35:25.330

414 次

私は分類アルゴリズムに取り組んでいます。そのためには、ウィキメディアからの約 10,000 の静的 HTML ページを含むデータセットが必要です。page-title-1.html .... page-title-10000.html のようなもの

Google を試してみたところ、最善の解決策はhttp://dumps.wikimedia.org/other/static_html_dumps/2008-06/en/からダウンロードすることであることがわかりました。

しかし、欲しいものを手に入れるための使い方がわかりません。

以下のようなファイルがあります

html.lst    2008-Jun-19 17:25:05    692.2M  application/octet-stream
images.lst  2008-Jun-19 18:02:09    307.4M  application/octet-stream
skins.lst   2008-Jun-19 17:25:06    6.0K    application/octet-stream
wikipedia-en-html.tar.7z    2008-Jun-21 16:44:22    14.3G   application/x-7z-compressed

*.lst ファイルの処理方法とその内容を知りたいwikipedia-en-html.tar.7z

dataset - Wiki から 10.000 の静的 HTML ページのデータセットを取得する方法

1 に答える 1

Related

Reference