4

ウィキペディアのダンプから言語間リンクを抽出しようとしています。これらのリンクは WikiData Project に移動されたようで、アクセスは API 経由でのみ提供されます。

このブランチでは、問題の対処方法を説明し、API への切り替えを提案しています: エクスポートされたウィキペディアの記事から Interlanguage リンクを取得しますか?

しかし、私の研究範囲は、Web API (数百万クエリ) を使用するには大きすぎるようです。API 以外の場所からこれらのリンクを抽出できるかどうかを知っている人はいますか? API を照会するよりも、任意のサイズのダンプを解析する方が望ましいです。

私が使用したウィキペディアのダンプ: http://dumps.wikimedia.org/backup-index.html

私が使用した WikiData ダンプ: http://dumps.wikimedia.org/wikidatawiki/latest/

4

1 に答える 1

2

ウィキデータのダンプを簡単に処理するための非常に優れたライブラリはウィキデータ ツールキットで、多くの詳細を抽象化してくれます。最新のリリース0.3では、あなたのような基本的なタスクに役立つサンプル スクリプトのコレクションが増えています。例の readmeには、次のものがありますSitelinksExample.java

このプログラムは、ウィキデータ ダンプで使用されるサイト リンクに関する情報を取得する方法を示します。ウィキメディア プロジェクトへのリンクは、英語のウィキペディアの場合は「enwiki」、ヘブライ語の WikiVoyage の場合は「hewikivoyage」などのキーを使用します。これらのコードの意味を調べ、これらのプロジェクトの記事の URL を作成するために、ウィキデータ ツールキットには、特定のプロジェクトのサイト リンク情報をダウンロードして処理するいくつかの簡単な関数が含まれています。この例は、この機能の使用方法を示しています。

于 2014-10-01T06:24:15.800 に答える