この質問は 、Java の小さくて単純なドキュメント用の最速の XML パーサーに多少関連しています が、さらにいくつかの詳細があります。
私は、多数 (数千万) の小さな (約 300k) xml ドキュメントを解析する必要があるアプリケーションに取り組んでいます。現在の実装では xerces-j を使用しており、1.5 GHz のマシンで xml ドキュメントごとに約 2.5 ミリ秒かかります。この性能を上げたい。この記事に出会いました
http://www.xml.com/pub/a/2007/05/16/xml-parser-benchmarks-part-2.html
libxml2 はどの Java パーサーよりも約 1 桁速く解析できると主張しています。信じられるかどうかわかりませんが、私の注意を引きました。 jvm から libxml2 を使用しようとした人はいますか? もしそうなら、Java dom 解析 (xerces) より速いですか? 私はまだ Java DOM 構造が必要だと考えていますが、C 構造の DOM から Java-DOM へのコピーにはそれほど時間はかからないと思います。java-dom が必要です。この場合、sax は役に立ちません。
更新: libxml2 のテストを作成したところ、xerces よりも高速ではありませんでした...確かに、私の C コーディング能力は非常にさびています。
更新ここで質問を少し広げました: なぜ sax 解析は dom 解析よりも速いのですか? そしてstaxはどのように機能しますか? ドムを捨てる可能性もある。
ありがとう