重複の可能性:
正規表現を使用して HTML を解析することを想定していない場合、HTML パーサーはどのように記述されているのでしょうか?
私の質問は単純です: 現在の DOM パーサーは実際に文字列 (XML、HTML、またはその他) から DOM をどのように解析していますか?
html を RegEx で解析すべきではないことはわかっていますが、DOM パーサーは RegEx を使用して開始/終了タグのパターンを照合できませんでしたか? または、提供された文字列を文字配列として解析するための優れた1回限りのアルゴリズムはありますか?