2

Python ライブラリまたはライブラリを使用して、関心のあるウィキペディアのページをトークン化したいと思います。私はテーブルとリストに最も興味があります。このデータを Postgres または Neo4j にインポートできるようにしたいと考えています。

たとえば、私が興味を持っている 3 つのデータ セットを次に示します。

これらのそれぞれのソースは、それらをレンダリングするために使用される wikipedia のブランドのマークアップで書かれています。生データ形式で使用されるウィキペディア固有のタグと構文が多数あります。BeautifulSoup を使用するだけなので、HTML の方が簡単な解決策かもしれません。

トークン化のより良い方法を知っている人はいますか? 最終的な HTML を取得して BeautifulSoup で解析するとしたら、車輪を再発明することになると思います。また、これらのページを XML で出力する方法を見つけたとしても、テーブル データが十分にトークン化されていない可能性があり、さらに処理が必要になるでしょう。

4

2 に答える 2

2

ウィキペディアは MediWiki に基づいて構築されているため、利用できるAPIがあります。使用できるSpecial:Exportもあります。

生データを取得したら、それをmwlibで実行して解析できます。

于 2012-05-24T12:05:17.020 に答える
2

これはよりセマンティックな Web 方向に向けられていますが、DBPediaでは SPARQL を使用してウィキペディア データの一部 (コミュニティ変換作業) をクエリできます。これにより、理論的には必要なデータを簡単に抽出できますが、RDF トリプルを扱うのは面倒な場合があります。

さらに、DBPedia にまだ興味のあるデータが含まれているかどうかもわかりません。

于 2012-05-24T12:14:01.940 に答える