プロジェクトにウィキペディアのダンプを使用したいと考えています。私のプロジェクトには以下の情報が必要です。
- ウィキペディアのエントリについて、そのページが他にどの言語で含まれているか知りたいですか?
- csv またはその他の一般的な形式でダウンロード可能なデータが必要です。
このデータを取得する方法はありますか?
ありがとうバラ
プロジェクトにウィキペディアのダンプを使用したいと考えています。私のプロジェクトには以下の情報が必要です。
このデータを取得する方法はありますか?
ありがとうバラ
ウィキメディア財団は、英語版ウィキペディアを含むすべてのプロジェクトのXMLダンプを提供しています。
言語間リンクの英語のwiki記事の解析は非常に簡単です。このようなリンクの構文は次のとおりです[[language_code:Name of other language Wikipedia article]]
。ここで、language_codeは通常、2文字または3文字のコード(tlh
クリンゴン語など)であり、いくつかの例外を除いてISO標準に基づいています。 、simple
単純な英語など。
ウィキメディアは、さまざまな形式でウィキペディアのダンプをdownload.wikimedia.orgで提供しています。
状況が変わったので、この質問は古くても答えます。現在はWikidataがあります。
ウィキペディアの記事からすべての相互リンクが削除され、ウィキデータがそれらすべてをホストしています。アイテム (たとえば、Q42「ダグラス アダムス」) をチェックすると、「このアイテムにリンクされたウィキペディアのページ」セクションにサイトリンクが表示されます。すべての異なるウィキペディア。
ここでWikidata APIを見つけることができます。また、Special:Exportページを使用して XML で記事を取得することもできます。