-1

ウィキペディア ダンプからウィキペディア インフォボックスを抽出し、タグを Java のキーと値のペアとして含む xml ファイルを準備することを楽しみにしています。

正規表現とスタックを使用してインフォボックスを正常に抽出しました。ただし、コンテンツにはウィキペディアのマークアップが含まれています。ウィキペディアをきれいなテキストにフォーマットし、キーと値のペアとして保存する方法を教えてください。明らかに、すべてのマークアップの削除をコーディングするのは、Java 用の外部 API を探して、膨大な作業です。

4

2 に答える 2

1

次のコードを使用して、wikixmljをダウンロードし、infobox を抽出できます。

    import edu.jhu.nlp.wikipedia.*;
    public class InfoboxParser {

    public static void main(String[] args) throws Exception{
        WikiXMLParser parser = WikiXMLParserFactory.getSAXParser("/path_to_wiki_dump/enwiki-20131202-pages-articles-multistream.xml.bz2.xml");
            parser.setPageCallback(new PageCallbackHandler() {
                public void process(WikiPage page) {
                  InfoBox infobox=page.getInfoBox();
                   //do something with info box
                }
            });
            parser.parse();
    }

}
于 2014-01-03T13:33:33.823 に答える
0

XML を正規表現で解析しないでください。

XML パーサーを使用します。

于 2013-11-21T12:47:43.727 に答える