Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
ウィキペディアのダンプを解析し、各ページにあるハイパーリンクを取得する方法を探しています。私の主な目的は、あるウィキペディアのページから別のページに移動するための可能なパスに関する有向グラフを作成することです。
例: 「犬」のページ定義には、「Canis lupus」へのリンクがあります。したがって、出力として Dog-> Canis Lupus が表示されます。
PS: Python ライブラリがある場合はそれを使用したいと思います。
最も簡単な方法は、ページ間のリンクに関する情報がすでに含まれているダンプ (pagelinks.sql) を使用することです。これを使用するには、それを MySQL データベースにインポートすると、任意の言語からそのデータベースにアクセスできます。そのダンプ内のデータを理解するには、page.sql もインポートする必要があります。