独自のコードポイントを持つ40文字のセットがあります。たとえば、U0678
などu0679
です。他のすべての文字を無視して、コードポイントに基づいてテキストからそれらの文字のみを含む単語、文字列、およびサブ文字列を取得するにはどうすればよいですか?古いコードで苦しんでいます
private string token(string x)
{
Regex exclude = new Regex(@"\d|\s+|/|-|[A-Za-z]", RegexOptions.Compiled);
return string.Join(" ",
(from s in Regex.Split(x, "([ \\t{}():;.,!ـ؛،؟ \"\n])")
where !exclude.IsMatch(s)
select s).ToArray());
}
編集しました。文字列「aaabbbcccddd」があるとします。次に、aaaとbbbという単語のみを取得したいと思います。それなら私は次のようなことをしたいです
Regex regEx = new Regex(@"\u0041|\u0042");
Match match = regEx.Match(mystring);
if(match.Success)
then do somthing
しかし、私は40文字を持っています。