1

libxml2 や MSHTML を使用するとどうなるかなど、できれば HTML を完全に書き直すことなく、C++ で HTML に簡単な変更を加える必要があります。

特に、すべての「img」要素の「src」属性を読み取り、(潜在的に) 変更できる必要があります。有効な HTML でこれを実行できるように十分に堅牢である必要がありますが、できればプロセス中に他の HTML を変更する必要はありません。

これを処理できるライブラリはありますか?それとも、これは正規表現でできることですか? 私は正規表現にあまり精通していません。ここで、正規表現を使用して HTML を解析するべきではないという多くの質問を読みましたが、それがこのようなものに当てはまるのか、それともその原則が当てはまるのかはわかりません主に、HTML からツリーを構築するコンテキストでの解析に使用されます。

4

2 に答える 2

2

正規表現は、ネストされたタグを適切に処理しないため、HTMLにはお勧めしません。この目的には問題ないはずです。

于 2009-08-09T16:27:08.673 に答える
1

HTMLTidyを見てみる

過去に似たようなものに使用したことがあります。

于 2009-08-09T16:00:05.563 に答える