java - Java での Wikipedia インフォボックスの抽出

Question

ウィキペディアダンプからウィキペディアインフォボックスを抽出し、タグを Java のキーと値のペアとして含む xml ファイルを準備することを楽しみにしています。

正規表現とスタックを使用してインフォボックスを正常に抽出しました。ただし、コンテンツにはウィキペディアのマークアップが含まれています。ウィキペディアをきれいなテキストにフォーマットし、キーと値のペアとして保存する方法を教えてください。明らかに、すべてのマークアップの削除をコーディングするのは、Java 用の外部 API を探して、膨大な作業です。

score 1 · Accepted Answer

次のコードを使用して、wikixmljをダウンロードし、infobox を抽出できます。

    import edu.jhu.nlp.wikipedia.*;
    public class InfoboxParser {

    public static void main(String[] args) throws Exception{
        WikiXMLParser parser = WikiXMLParserFactory.getSAXParser("/path_to_wiki_dump/enwiki-20131202-pages-articles-multistream.xml.bz2.xml");
            parser.setPageCallback(new PageCallbackHandler() {
                public void process(WikiPage page) {
                  InfoBox infobox=page.getInfoBox();
                   //do something with info box
                }
            });
            parser.parse();
    }

}

score 0 · Accepted Answer

0

XML を正規表現で解析しないでください。

XML パーサーを使用します。

于 2013-11-21T12:47:43.727 に答える

java - Java での Wikipedia インフォボックスの抽出

2 に答える 2

Related

Reference