html - DOM はどのように解析されますか?

Question

重複の可能性:
正規表現を使用して HTML を解析することを想定していない場合、HTML パーサーはどのように記述されているのでしょうか?

私の質問は単純です: 現在の DOM パーサーは実際に文字列 (XML、HTML、またはその他) から DOM をどのように解析していますか?

html を RegEx で解析すべきではないことはわかっていますが、DOM パーサーは RegEx を使用して開始/終了タグのパターンを照合できませんでしたか? または、提供された文字列を文字配列として解析するための優れた1回限りのアルゴリズムはありますか?

score 4 · Accepted Answer

これを見てください：

代替テキスト

score 0 · Accepted Answer

さて、次のような基本的なアプローチから始めることができます。

そして、それを展開して、すべてを完全な DOM ツリー構造に格納します。

2 に答える 2