1

何が速いですか?HTML Agilityパックを使用するWebスクレイパーを作成したところ、大量のメモリを消費しています。

メモリプロファイラーでプロファイリングすると、HTMLDocument、HTMLNodeなどのインスタンスが最も多くのメモリを使用していることがわかりました。

正規表現を使用する方が速くて効率的だと思いますが、間違っていますか?

4

2 に答える 2

1

正確に何をするかに応じて、正規表現を使用して物事を高速化し、一部のメモリを解放することが実際に可能になる可能性があります。問題は、データを抽出するページがどの程度厳密で整形式かということです。正規表現は、実際に遭遇する可能性がある、完全に有効であるが予期しない HTML 構造により、はるかに簡単に混乱します。

于 2012-05-31T04:29:13.257 に答える
1

reg-ex は、html agilty pack よりもはるかに高速です。

ただし、html は必ずしも整形式である必要はないことを覚えておく必要があります。正規表現のみを使用して必要な正しいデータを検索すると、失敗する場合があります。ブラウザーは間違いに対して非常に寛容です。

アジリティ パックは優れたツールです。消費しているメモリに多くの機能を提供します。

于 2012-05-31T04:30:54.083 に答える