python - 英数字+「＆」および「;」を含む正規表現を探しています

Question

ここに問題があります：

split=re.compile('\\W*')

この正規表現は、正規表現を処理する場合は問題なく機能しますが、のような単語を含む表現が必要になる場合がありますk&auml;ytt&auml;j&aml;auml;。

&と;文字を含めるには、正規表現に何を追加する必要がありますか？

score 6 · Accepted Answer

エンティティを 1 つの単位として扱います (数値文字コードを含めることもできるため)。結果として、次の正規表現が得られます。

(\w|&(#(x[0-9a-fA-F]+|[0-9]+)|[a-z]+);)+

これは一致します

/編集: エラーを指摘してくれたΤΖΩΤΖΙΟΥ に感謝します。

score 5 · Accepted Answer

おそらく、問題を逆にしたいと思うでしょう。つまり、スペースのないすべての文字を見つけることです。

[^ \t\n]*

または、余分な文字を追加したい：

[a-zA-Z0-9&;]*

HTMLエンティティを照合する場合は、次のようにしてみてください。

(\w+|&\w+;)*

score 2 · Accepted Answer

余分な文字を含む文字クラスを作成する必要があります。例えば：

split=re.compile('[\w&;]+')

これでうまくいくはずです。ご参考までに

score -1 · Accepted Answer

この正規表現がうまくいったようです：

split=re.compile('(\\\W+&\\\W+;)*')

提案をありがとう。それらのほとんどは Reggy で問題なく動作しましたが、なぜ失敗したのかよくわかりませんre.compile。

4 に答える 4