XML ウィキペディアのダンプを解析し、そこからさまざまな種類のテーブルをすべて抽出したい (インフォボックスだけでなく)
wikixmljを使用してダンプを解析していますが、ウィキペディア ダンプ内のさまざまな種類のテーブル (分割セル テーブル、結合セル テーブル、カラーコード付きテーブル) を解析するときに問題が発生します。
テーブルとしてマークされた項目が見つかるまで、XML 記事を解析できましたが、テーブルをオブジェクトに解析する際に従うべき標準がなく、多くの配置を持つ多くの種類のテーブルがあるようです。
私が作成しようとしているランタイムオブジェクトでそれをカバーできるように、従うべきテーブルタイプに関する文書化された標準がありますか、それともそれを回避する方法はありますか?
ノート:
これらは、私が何を意味するかを理解するのに役立ついくつかの例です:
http://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States アンドリュー・ジャクソン行を参照 (一部の行は併合および分割)
http://en.wikipedia.org/wiki/List_of_pharaohs
http://en.wikipedia.org/wiki/Open_Handset_Alliance
http://en.wikipedia.org/wiki/Comparison_of_web_server_software ヘッダーが上部と下部の両方にある場合があります