Python ライブラリまたはライブラリを使用して、関心のあるウィキペディアのページをトークン化したいと思います。私はテーブルとリストに最も興味があります。このデータを Postgres または Neo4j にインポートできるようにしたいと考えています。
たとえば、私が興味を持っている 3 つのデータ セットを次に示します。
- 2008 年のユーロビジョン ソング コンテストで各国が互いに与えたポイント数: http://en.wikipedia.org/wiki/Eurovision_Song_Contest_2008#Final
- 通貨と流通している国のリスト (多対多の関係): http://en.wikipedia.org/wiki/List_of_circulating_currencies
- 世界中の太陽光発電所のリスト: http://en.wikipedia.org/wiki/List_of_solar_thermal_power_stations
これらのそれぞれのソースは、それらをレンダリングするために使用される wikipedia のブランドのマークアップで書かれています。生データ形式で使用されるウィキペディア固有のタグと構文が多数あります。BeautifulSoup を使用するだけなので、HTML の方が簡単な解決策かもしれません。
トークン化のより良い方法を知っている人はいますか? 最終的な HTML を取得して BeautifulSoup で解析するとしたら、車輪を再発明することになると思います。また、これらのページを XML で出力する方法を見つけたとしても、テーブル データが十分にトークン化されていない可能性があり、さらに処理が必要になるでしょう。