1

重複の可能性:
正規表現を使用して HTML を解析することを想定していない場合、HTML パーサーはどのように記述されているのでしょうか?

私の質問は単純です: 現在の DOM パーサーは実際に文字列 (XML、HTML、またはその他) から DOM をどのように解析していますか?

html を RegEx で解析すべきではないことはわかっていますが、DOM パーサーは RegEx を使用して開始/終了タグのパターンを照合できませんでしたか? または、提供された文字列を文字配列として解析するための優れた1回限りのアルゴリズムはありますか?

4

2 に答える 2

0

さて、次のような基本的なアプローチから始めることができます。

http://www.blackbeltcoder.com/Articles/strings/parsing-html-tags-in-c

そして、それを展開して、すべてを完全な DOM ツリー構造に格納します。

于 2011-01-09T07:07:13.530 に答える