Asp.net を使用して Web クローラーを作成しました。よく効きます。問題は、そこからコンテンツを抽出したいときです。一部のコンテンツは HTML タグ間で折り返されます。そこからコンテンツを抽出するソリューションがいくつかありますが、どれが優れているかわかりません。パフォーマンスが高く、実装が簡単でなければなりません。
多くのパターンで正規表現を使用してコンテンツを抽出します。
Linq to XML を使用してコンテンツを抽出します。
XPath を使用してコンテンツを抽出します。
誰かがより良い解決策を選択するのを手伝ってください。XPath を使用すると思いますが、パフォーマンスが RegEx や Linq2XML よりも優れているかどうかはわかりません。
アイデアをありがとう。