0

C# で Web サイトと正規表現をいじっています。私はこの状況を持っています:

             <a href="path/to/image">
    <img src="thumbnail"></a>

その概要は、アプリケーションが特定の Web サイトのコンテンツを取得する方法です。各行のタブとブレークラインが同じではありません。

gskinner を使用して正規表現 (http://gskinner.com/RegExr/) をチェックし、次の正規表現を作成しました。

            (?i)<a([^>]+)>\W.*</a>

フラグ: 複数行

Gskiner は、パターンが正しいことを示しています。しかし、c# (regEx.Matches(...)) を入れると、もう一致が見つかりません。

誰もこれを行う方法の手がかりを持っていますか?

ありがとう

4

1 に答える 1

0

using HtmlAgilityPack and your sample string

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);

-

var href = doc.DocumentNode
    .Descendants("a")
    .Select(n => n.Attributes["href"].Value)
    .FirstOrDefault();

var src = doc.DocumentNode
    .Descendants("img")
    .Select(n => n.Attributes["src"].Value)
    .FirstOrDefault();
于 2012-05-16T21:15:38.567 に答える