クラスの正規表現パターンを学習しようとしています。私は単純な HTML レクサー/パーサーを作成しています。これがレクサー/パーサーを作成する最良または最も効率的な方法ではないことはわかっていますが、正規表現パターンを理解するためだけのものです。
私の質問は、文字列に HTML タグが含まれていないか (つまり<TAG>
)、HTML エンティティが含まれていないか(つまり ) をチェックするパターンを作成するにはどうすればよい&ENT;
ですか?
これは私がこれまでに思いついたものですが、まだ機能しません:
.+?(^(?:&[A-Za-z0-9#]+;)^(?:<.*?>))
編集: 唯一の問題は、きれいではないかもしれませんが、可能であればこのタスクを達成する完全なパターンを見つける必要がある最終結果を否定できないことです。言及したことはありませんが、HTML ページの任意の単純なテキストに一致するはずです。