java - StaxとDOM解析のパフォーマンスの違い

Question

私は長い間DOMを使用してきましたが、そのためDOMの解析パフォーマンスはかなり良好でした。約4〜7 MBのXMLを処理する場合でも、解析は高速です。DOMで直面する問題は、大規模なXMLの処理を開始するとすぐに巨大になるメモリフットプリントです。

最近、私は第2世代のパーサーであると思われるStax（XML用のストリーミングパーサー）に移行しようとしました（Staxについて読むと、現在最速のパーサーであると言われています）。大きなXMLに対してStaxパーサーを約4MBのメモリフットプリントで試したところ、メモリフットプリントは確実に大幅に減少しましたが、XML全体を解析してそこからJavaオブジェクトを作成するのにかかる時間はDOMのほぼ5倍になりました。

Staxのsjsxp.jar実装を使用しました。

パーサーのストリーミングの性質のためにパフォーマンスが極端に良くない可能性があることをある程度論理的に推測できますが、5時間の短縮です（たとえば、DOMはこのXMLのオブジェクトを構築するのに約8秒かかりますが、Staxの解析は平均で約40秒かかりました）は絶対に受け入れられないでしょう。

私はこれらのパフォーマンスの数値を理解することができないので、ここで完全にいくつかのポイントを逃していますか？

score 7 · Accepted Answer

package parsers;

/**
 *
 * @author Arthur Kushman
 */

import java.io.File;
import java.io.IOException;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;

import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.w3c.dom.Element;


public class DOMTest {

  public static void main(String[] args) {
  long time1 = System.currentTimeMillis();
   try {
    DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
    DocumentBuilder db = dbf.newDocumentBuilder();
    Document doc = db.parse(new File("/Users/macpro/Desktop/myxml.xml"));
    doc.getDocumentElement().normalize();
    // System.out.println("Root Element: "+doc.getDocumentElement().getNodeName());
    NodeList nodeList = doc.getElementsByTagName("input");
    // System.out.println("Information of all elements in input");

    for (int s=0;s<nodeList.getLength();s++) {
      Node firstNode = nodeList.item(s);
      if (firstNode.getNodeType() == Node.ELEMENT_NODE) {
        Element firstElement = (Element)firstNode;
        NodeList firstNameElementList = firstElement.getElementsByTagName("href");
        Element firstNameElement = (Element)firstNameElementList.item(0);
        NodeList firstName = firstNameElement.getChildNodes();
        System.out.println("First Name: "+((Node)firstName.item(s)).getNodeValue());        
      }
    }


   } catch (Exception ex) {
    System.out.println(ex.getMessage());
    System.exit(1);
   }
  long time2 = System.currentTimeMillis() - time1;
  System.out.println(time2);
  }

}

45ミル

package parsers;

/**
 *
 * @author Arthur Kushman
 */
import javax.xml.stream.*;
import java.io.*;
import javax.xml.namespace.QName;

public class StAXTest {

  public static void main(String[] args) throws Exception {
  long time1 = System.currentTimeMillis();
    XMLInputFactory factory = XMLInputFactory.newInstance();
    // factory.setXMLReporter(myXMLReporter);
    XMLStreamReader reader = factory.createXMLStreamReader(
            new FileInputStream(
            new File("/Users/macpro/Desktop/myxml.xml")));

    /*String encoding = reader.getEncoding();

    System.out.println("Encoding: "+encoding);

    while (reader.hasNext()) {
      int event = reader.next();
      if (event == XMLStreamConstants.START_ELEMENT) {
        QName element = reader.getName();
        // String text = reader.getText();
        System.out.println("Element: "+element);
        // while (event != XMLStreamConstants.END_ELEMENT) {
          System.out.println("Text: "+reader.getLocalName());
        // }
      }
    }*/

  try {
    int inElement = 0;
    for (int event = reader.next();event != XMLStreamConstants.END_DOCUMENT;
    event = reader.next()) {
      switch (event) {
        case XMLStreamConstants.START_ELEMENT:
          if (isElement(reader.getLocalName(), "href")) {
            inElement++;
          }
          break;
        case XMLStreamConstants.END_ELEMENT:
          if (isElement(reader.getLocalName(), "href")) {
            inElement--;
            if (inElement == 0) System.out.println();
          }
          break;
        case XMLStreamConstants.CHARACTERS:
          if (inElement>0) System.out.println(reader.getText());
          break;
        case XMLStreamConstants.CDATA:
          if (inElement>0)  System.out.println(reader.getText());
          break;
      }
    }
    reader.close();
  } catch (XMLStreamException ex) {
    System.out.println(ex.getMessage());
    System.exit(1);
  }
    // System.out.println(System.currentTimeMillis());
    long time2 = System.currentTimeMillis() - time1;
    System.out.println(time2);
 }

  public static boolean isElement(String name, String element) {
    if (name.equals(element)) return true;
    return false;
  }

}

23ミル

StAXが勝ちます=）

score 1 · Accepted Answer

質問には詳細が欠けていますが、どちらの場合も遅い解析ではないことは間違いありません（DOMはパーサーではありません。DOMツリーは通常、SAXまたはStaxパーサーを使用して構築されます）が、その上のコードはオブジェクトを作成します。

JAXB（および適切な設定のXStream）を含む効率的な自動データバインダーがあり、これが役立つ可能性があります。DOM（およびJDOM、Dom4j、XOM）の主なパフォーマンスの問題は、ツリーモデルがPOJOと比較して本質的に高価であるということであるため、DOMよりも高速です。特にメモリ使用量に関して。

パーサーに関しては、WoodstoxはSjsxpよりも高速なStaxパーサーです。生の速度が重要な場合、Aaltoはさらに高速になります。しかし、ここでの主な問題はパーサーの速度ではないかと思います。

score 0 · Accepted Answer

2000MでXMLを作成してから、数値を比較してみてください。DOMベースのアプローチは、より小さなデータでより高速に機能すると思います。データが大きくなるにつれて、Stax（または任意のsaxベースのアプローチ）がオプションになります。

（3Gまたは大きなファイルを処理します。DOMはアプリケーションを起動しません。）

score 0 · Accepted Answer

私の謙虚な意見では、速度とメモリのトレードオフの典型的なケースです。SAX（またはJDOM）を試して、もう一度測定する以外にできることはあまりありません。

java - StaxとDOM解析のパフォーマンスの違い

4 に答える 4

45ミル

23ミル

Related

Reference