重複の可能性:
C#正規表現を使用してHTMLタグを削除する
HTMLファイルのコンテンツのみを返すコードを書き込もうとしています。私が考えた最良の方法は、<..>括弧内のすべての要素を削除するか、>...<括弧内のすべてのテキストのリストを作成することです。私は正規表現にかなり慣れていませんが、それが正しい方法であると確信しています。
これが私が試したコードです
Regex reg = new Regex(@"<.*>");
file = reg.Replace(file, "");
テキストのブロックの前に<...>が1つしかない限り、これは機能します。<...> <...>のように、これらの要素が2つ以上順番に含まれているファイルで、見つかったテキストの削除を開始するだけです。誰かが私が間違っていることを教えてもらえますか?