5

ウィキペディアのダンプを解析し、各ページにあるハイパーリンクを取得する方法を探しています。私の主な目的は、あるウィキペディアのページから別のページに移動するための可能なパスに関する有向グラフを作成することです。

例: 「犬」のページ定義には、「Canis lupus」へのリンクがあります。したがって、出力として Dog-> Canis Lupus が表示されます。

PS: Python ライブラリがある場合はそれを使用したいと思います。

4

2 に答える 2

3

最も簡単な方法は、ページ間のリンクに関する情報がすでに含まれているダンプ (pagelinks.sql) を使用することです。これを使用するには、それを MySQL データベースにインポートすると、任意の言語からそのデータベースにアクセスできます。そのダンプ内のデータを理解するには、page.sql もインポートする必要があります。

于 2013-10-10T16:29:30.277 に答える