2

だから私はまだこのパーサーに取り組んでいます。<st1:place w:st="on">今日、 Google から Microsoft Office スマート タグであるというタグが付けられたドキュメントを見つけました。

これらのものを取り除きたいのですが、それらが何であるか、またはそれらがいくつあるかのリストが見つかりませんか?

それらがすべて<...:...>パターンに従っている場合、正規表現で簡単に削除できます。

ドキュメントには doctype がなく、.jsp 拡張子がありませんが、すべてのコンテンツは 2 つの<html>タグの間にあり、非標準の獣であっても、まだ解析する必要があります。

OK、実際には大きな問題ではありませんが、フォーマットが乱れ、バグが発生します。

4

2 に答える 2

1

この正規表現はトリックを行う必要があります:

/<[:alnum:]+:[\s\S]*>/

<、英数字パターン、':'コロンで開くタグでトリガーされます。

または:

/<\s*[:alnum:]+:[\s\S]*>/

タグのより緩いフォーマッタを許可します(開始<と名前空間の間のスペース)

于 2011-02-23T15:40:57.383 に答える