HTML のさまざまなバージョンと仕様によって指定された文字エンティティをさまざまなレベルの理解に列挙する、チューブのいたるところに何百万ものチートシートがあります。私はそれらの特定のものを信頼したくないので、ここに投げ捨てて、誰かがより信頼できる回答を投稿するかどうかを確認します.
そこで、正規表現を使用して、すべての文字参照とエンティティを一致させたいと仮定しましょう。私はから始め/&(?:#(?:x[0-9a-f]+|[0-9]+)|[a-z]{???,???});/i
ます。しかし、???
s には何が入りますか? lt
と のように2 文字の長さのエンティティが考えられますgt
が、HTML の仕様に 1 文字のエンティティはありますか? 同様に、最も長いエンティティは何ですか? 最後に、直接入力する以外に、HTML でリテラル文字を表現するための構文はこれら3つだけですよね?