0

私はSQLにかなり慣れていないので、お詫び申し上げます。

ウィキペディアをクロールするのは避けたかったので、別の方法を探し始めました。DBPedia は可能な解決策のように思えましたが、どこから始めるべきかを 1 時間探した後、wikipedia のダンプに戻りました。

私が持っている質問は、ダンプで必要なものをどのように見つけるのですか? 特定の情報を見つけるには、どのダンプが必要ですか? そこには非常に多くのダンプがあり、それらは構造のさまざまな部分に貢献しています。100 メガバイト相当のデータを取得するには、それらすべてをダウンロードする必要がありますか?

Mediawiki データベース構造を調べましたが、あまり役に立ちませんでした。

誰かが前にそのようなことをしたことがありますか? 私は特に、Wiki がアスリートなどについて行っているテーブルに興味があります。どの情報を追跡したり、特定のウィキ ダンプに関連する情報をリンクしたりする方法はありますか?

編集:名前、年齢、スポーツ、メダルなど、すべてのスポーツのアスリートのリストを取得しようとしています...

4

2 に答える 2

1

ウィキペディア (またはそのダンプ) には、探している構造化された情報が実際には含まれていません。あるアスリートが獲得したメダルを知りたい場合は、そのアスリートの記事を解析して、メダルに使用されているテンプレートを見つけることができます。ただし、テンプレートは標準化されておらず、時間の経過とともに変化することが多いため、これを行うのはおそらく困難です。

DBPedia の方がニーズに適していると思います。

于 2012-08-24T16:26:28.617 に答える
-1

同じ質問をする...私の人生のまさにこの瞬間. 私はそれに時間を費やしています-そして答えは->巨大な巨大なデータベースセット全体をダウンロードする前にそれらの小さな部分を見ることができるように、データダンプのプレビューを提供するページはありません-ちなみに通常のテキストアプリケーションで解析するのは大きな問題です。端末にアクセスできる場合は、「cat」コマンドを使用して内部を確認します。これが最も速い方法です。

何を見つけたいかはわかっていました - pageId と Titles を含むダンプ - それがどのダンプに含まれているかについての情報はありません。だから私は検索検索を検索する必要がありました->何も..それから、さまざまな種類の10〜15個のダンプをダウンロードして、それらを開いて使用できるかどうかを確認する必要がありました。

ダンプが判明しました: enwiki-latest-page.sql.gz には、eng のすべての pageId とタイトルが含まれていました。ウィキペディア。pageId から任意のウィキページのすべてのテキストとコンテンツを要求でき、タイトルを使用してこの pageId が何の Id であるかを知ることができるため、これは一般的に便利なダンプです。

于 2016-10-03T19:05:38.913 に答える