1

XML ウィキペディアのダンプを解析し、そこからさまざまな種類のテーブルをすべて抽出したい (インフォボックスだけでなく)

wikixmljを使用してダンプを解析していますが、ウィキペディア ダンプ内のさまざまな種類のテーブル (分割セル テーブル、結合セル テーブル、カラーコード付きテーブル) を解析するときに問題が発生します。

テーブルとしてマークされた項目が見つかるまで、XML 記事を解析できましたが、テーブルをオブジェクトに解析する際に従うべき標準がなく、多くの配置を持つ多くの種類のテーブルがあるようです。

私が作成しようとしているランタイムオブジェクトでそれをカバーできるように、従うべきテーブルタイプに関する文書化された標準がありますか、それともそれを回避する方法はありますか?

ノート:

これらは、私が何を意味するかを理解するのに役立ついくつかの例です:

http://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States アンドリュー・ジャクソン行を参照 (一部の行は併合および分割)

http://en.wikipedia.org/wiki/List_of_pharaohs

http://en.wikipedia.org/wiki/Open_Handset_Alliance

http://en.wikipedia.org/wiki/Comparison_of_web_server_software ヘッダーが上部と下部の両方にある場合があります

4

1 に答える 1

0

さて、テーブル自体だけに興味がある場合は、次のことを行う必要があります

1-ウィキペディアのダンプをダウンロードします(すべてのダンプ)

2-ダンプから別のファイルまたはファイルのセットにテーブルを抽出します。正規表現を使用します\{\|[\s|\S]+?\n\|-?\}

3-ライブラリgwtwikiを使用してダンプのモデルを構築し、テーブルファイルのみをhtmlに変換します。

-このクラスこのクラスをプロジェクトに追加します

-gwtwikiなどの必要なライブラリを追加します


これで、ウィキペディアのダンプ全体に表示されるテーブルを保持するhtmlファイルが作成され、テーブルはhtml形式であるため、簡単に操作できます(コードを介してファイルを操作し、Unicodeファイルに書き込む場合は注意してください。テーブルのいくつかの文字のエンコーディングの)

于 2012-11-18T18:02:50.697 に答える