java - Wikipedia XML ダンプからのテーブルの抽出

Question

XML ウィキペディアのダンプを解析し、そこからさまざまな種類のテーブルをすべて抽出したい (インフォボックスだけでなく)

wikixmljを使用してダンプを解析していますが、ウィキペディアダンプ内のさまざまな種類のテーブル (分割セルテーブル、結合セルテーブル、カラーコード付きテーブル) を解析するときに問題が発生します。

テーブルとしてマークされた項目が見つかるまで、XML 記事を解析できましたが、テーブルをオブジェクトに解析する際に従うべき標準がなく、多くの配置を持つ多くの種類のテーブルがあるようです。

私が作成しようとしているランタイムオブジェクトでそれをカバーできるように、従うべきテーブルタイプに関する文書化された標準がありますか、それともそれを回避する方法はありますか?

ノート：

これらは、私が何を意味するかを理解するのに役立ついくつかの例です:

http://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States アンドリュー・ジャクソン行を参照 (一部の行は併合および分割)

http://en.wikipedia.org/wiki/List_of_pharaohs

http://en.wikipedia.org/wiki/Open_Handset_Alliance

http://en.wikipedia.org/wiki/Comparison_of_web_server_software ヘッダーが上部と下部の両方にある場合があります

score 0 · Accepted Answer

さて、テーブル自体だけに興味がある場合は、次のことを行う必要があります

1-ウィキペディアのダンプをダウンロードします（すべてのダンプ）

2-ダンプから別のファイルまたはファイルのセットにテーブルを抽出します。正規表現を使用します\{\|[\s|\S]+?\n\|-?\}

3-ライブラリgwtwikiを使用してダンプのモデルを構築し、テーブルファイルのみをhtmlに変換します。

-このクラスとこのクラスをプロジェクトに追加します

-gwtwikiなどの必要なライブラリを追加します

これで、ウィキペディアのダンプ全体に表示されるテーブルを保持するhtmlファイルが作成され、テーブルはhtml形式であるため、簡単に操作できます（コードを介してファイルを操作し、Unicodeファイルに書き込む場合は注意してください。テーブルのいくつかの文字のエンコーディングの）

java - Wikipedia XML ダンプからのテーブルの抽出

1 に答える 1

Related

Reference