regex - HTMLからコンテンツを抽出するためのJsoup対正規表現対XPathのパフォーマンス？

Question

しかし、Webアプリケーションのパフォーマンステストを行いたいと思います。HTMLがどのように見えるかは確かに知っています。したがって、正規表現を使用して、ページソースからいくつかのデータを抽出できます。

（Jmeterを使用して）パフォーマンステストを行うので、マスターマシンから取得するリソースを減らしたいと思います。

XPath、正規表現（Jakarta ORO）、またはJsoupのどのオプションがリソースをあまり消費しませんか？

score 3 · Accepted Answer

JMeter 2.8の時点で、答えは正規表現です。ただし、もちろん、使用する正規表現によって異なります。JMeterでの正規表現の実装はかなり最適化されており、相関のための主要な後処理方法です。

JSoupに関しては、たとえばJSR223ポストプロセッサに基づくカスタムコーディングが必要になります。

JMeter 2.9は、2つの可能な基本的な実装を備えた新しいCSS/JQueryセレクターベースのExtractorを導入します。

見る：

DOMドキュメントを作成するため、そのパフォーマンスはRegexpよりも低くなりますが、超最適化されたテストプランを必要としないテストプランの多くの構文が容易になります。

最後に、XPathに関しては、DOMツリーを構築します。

特に多くの要素を抽出したい場合は、正規表現よりも高いメモリとCPUのコストがあり、拡張機能が作成されています。

1 に答える 1