だから私はまだこのパーサーに取り組んでいます。<st1:place w:st="on">
今日、 Google から Microsoft Office スマート タグであるというタグが付けられたドキュメントを見つけました。
これらのものを取り除きたいのですが、それらが何であるか、またはそれらがいくつあるかのリストが見つかりませんか?
それらがすべて<...:...>
パターンに従っている場合、正規表現で簡単に削除できます。
ドキュメントには doctype がなく、.jsp 拡張子がありませんが、すべてのコンテンツは 2 つの<html>
タグの間にあり、非標準の獣であっても、まだ解析する必要があります。
OK、実際には大きな問題ではありませんが、フォーマットが乱れ、バグが発生します。