私はこれまでにこれを持っています:
<a href="(http://www.imdb.com/title/tt\d{7}/)".*?>.*?</a>
c#
ArrayList imdbUrls = matchAll(@"<a href=""(http://www.imdb.com/title/tt\d{7}/)"".*?>.*?</a>", html);
private ArrayList matchAll(string regex, string html, int i = 0)
{
ArrayList list = new ArrayList();
foreach (Match m in new Regex(regex, RegexOptions.Multiline).Matches(html))
list.Add(m.Groups[i].Value.Trim());
return list;
}
HTMLページからimdbリンクを抽出しようとしていますが、この正規表現の何が問題になっていますか?
これの主なアイデアは、グーグルで映画を検索し、結果でimdbへのリンクを探すことです