c# - * と一致する正規表現は、英語以外の文字を含むテキストとは一致しません

翻译自：https://stackoverflow.com/questions/15048002 2013-02-24T02:18:29.193

352 次

ヘブライ語のテキストが含まれるページをスクレイピングしようとしています。次の HTML が含まれています。

<div id="AgeRating">דירוג גיל: ‎12+‎&lt;/div>

ここでは 12+ の部分だけが必要です (実際には、「12」の部分だけが必要です)。私は現在、他の言語のこの正規表現を使用しています:

new Regex(@"<div id=""AgeRating"">.*(\d{1,2})\+</div>", RegexOptions.Compiled);

しかし、私はこれを一致させることができません。RightToLeft、CultureInvariant、SingleLine、MultiLine などのすべての正規表現オプションを試しましたが、何も機能しません。ただし、他の多くの言語でも問題なく動作します。

注: HTML を適切に解析するための HtmlAgilityPack を認識しています。これは、一見正しい正規表現が特定の文字列と一致しない理由についての質問です (これは私が現在持っているサンプルです)。

1 に答える 1