それらがどのように機能するかを理解するために、単純なレクサーを作成しようとしています。あらゆるタイプのOpeningHTMLタグをキャッチできる優れたPOSIX文字列を見つけようとしています。ほぼ機能するものを作成しましたが、メタタグなどのより複雑なタグでは失敗します。これまでのところ、これは私が持っているものです:
"<\\p{Alnum}+(\\p{Space}\\p{Alnum}+\\p{Space}*=\"*\\p{Space}*\\p{Alnum}+\"*)*\\p{Space}*>"
このPOSIX文字列は多くのタグをキャッチしますが、メタタグやDOCタグなどの一部を見逃しています。失敗したタグは次のとおりです。
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
どんな助けでも大歓迎です。これはレクサーを作成するための最良の方法ではないかもしれませんが、これは正規表現がどのように機能するかを理解するのに役立つだけです。