dump - ウィキペディアのダンプで情報を見つける方法

Question

私はSQLにかなり慣れていないので、お詫び申し上げます。

ウィキペディアをクロールするのは避けたかったので、別の方法を探し始めました。DBPedia は可能な解決策のように思えましたが、どこから始めるべきかを 1 時間探した後、wikipedia のダンプに戻りました。

私が持っている質問は、ダンプで必要なものをどのように見つけるのですか? 特定の情報を見つけるには、どのダンプが必要ですか? そこには非常に多くのダンプがあり、それらは構造のさまざまな部分に貢献しています。100 メガバイト相当のデータを取得するには、それらすべてをダウンロードする必要がありますか?

Mediawiki データベース構造を調べましたが、あまり役に立ちませんでした。

誰かが前にそのようなことをしたことがありますか? 私は特に、Wiki がアスリートなどについて行っているテーブルに興味があります。どの情報を追跡したり、特定のウィキダンプに関連する情報をリンクしたりする方法はありますか?

編集:名前、年齢、スポーツ、メダルなど、すべてのスポーツのアスリートのリストを取得しようとしています...

score 1 · Accepted Answer

ウィキペディア (またはそのダンプ) には、探している構造化された情報が実際には含まれていません。あるアスリートが獲得したメダルを知りたい場合は、そのアスリートの記事を解析して、メダルに使用されているテンプレートを見つけることができます。ただし、テンプレートは標準化されておらず、時間の経過とともに変化することが多いため、これを行うのはおそらく困難です。

DBPedia の方がニーズに適していると思います。

score -1 · Accepted Answer

同じ質問をする...私の人生のまさにこの瞬間. 私はそれに時間を費やしています-そして答えは->巨大な巨大なデータベースセット全体をダウンロードする前にそれらの小さな部分を見ることができるように、データダンプのプレビューを提供するページはありません-ちなみに通常のテキストアプリケーションで解析するのは大きな問題です。端末にアクセスできる場合は、「cat」コマンドを使用して内部を確認します。これが最も速い方法です。

何を見つけたいかはわかっていました - pageId と Titles を含むダンプ - それがどのダンプに含まれているかについての情報はありません。だから私は検索検索を検索する必要がありました->何も..それから、さまざまな種類の10〜15個のダンプをダウンロードして、それらを開いて使用できるかどうかを確認する必要がありました。

ダンプが判明しました: enwiki-latest-page.sql.gz には、eng のすべての pageId とタイトルが含まれていました。ウィキペディア。pageId から任意のウィキページのすべてのテキストとコンテンツを要求でき、タイトルを使用してこの pageId が何の Id であるかを知ることができるため、これは一般的に便利なダンプです。

dump - ウィキペディアのダンプで情報を見つける方法

2 に答える 2

Related

Reference