regex - 正規表現は、XML 要素 (ハイフンを含む) とコンテンツ内を選択します

Question

私はエンタープライズ CMS を使用しており、サイト全体を再公開せずに毎週更新されるドロップダウンメニューを適切に作成するために、さまざまな数の有用な XML 要素を含む XML ドキュメントを作成しています。ただし、CMS でリンクを取得すると、生成された XML はリンクのコンテンツ (HTMLページ全体) も出力します。言うまでもなく、およそ 50 個の項目がある XML ファイルは、Web 上で使用するには大きすぎます (現状では 600KB を超えていると思います)。要素は<page-content>filler here</page-content>.

私がやろうとしているのは、TextWrangler を使用して、すべての<page-content>タグとそれに含まれるコンテンツを見つけて置き換えることです。

いくつかの異なる正規表現を試しましたが、終了タグと一致しないように見えるため、そのまま続きます。

これが私が試したことです：

(<page-content>)(.*?)

<page-content>上記は、次の開始タグまで一致しますが、これは私が望んでいるものではありません。

(<page-content>)(.*?)(<\/page-content>)
(<page-content>)(.*?)(<\/page\-content>)

上記では一致するものが見つかりませんが、以下では 7 つの一致が検出されるはずです。

(<content>)(.*?)(<\/content>)

ハイフンを処理する特別な方法があるかどうかはわかりませんが (私は正規表現に不慣れです)、誰かが私を助けてくれれば、それは大歓迎です.

ありがとう！

編集:正規表現は HTML を解析するためのものではないと言う前に、私はそれを知っていますが、これを簡単に見つけて置き換える方法は他にないようです。手動で削除して毎週ファイルを保存するには、あまりにも多くの発生があります。

regex - 正規表現は、XML 要素 (ハイフンを含む) とコンテンツ内を選択します

1 に答える 1

Related

Reference