私はエンタープライズ CMS を使用しており、サイト全体を再公開せずに毎週更新されるドロップダウン メニューを適切に作成するために、さまざまな数の有用な XML 要素を含む XML ドキュメントを作成しています。ただし、CMS でリンクを取得すると、生成された XML はリンクのコンテンツ (HTML
ページ全体) も出力します。言うまでもなく、およそ 50 個の項目がある XML ファイルは、Web 上で使用するには大きすぎます (現状では 600KB を超えていると思います)。要素は<page-content>filler here</page-content>
.
私がやろうとしているのは、TextWrangler を使用して、すべての<page-content>
タグとそれに含まれるコンテンツを見つけて置き換えることです。
いくつかの異なる正規表現を試しましたが、終了タグと一致しないように見えるため、そのまま続きます。
これが私が試したことです:
(<page-content>)(.*?)
<page-content>
上記は、次の開始タグまで一致しますが、これは私が望んでいるものではありません。
(<page-content>)(.*?)(<\/page-content>)
(<page-content>)(.*?)(<\/page\-content>)
上記では一致するものが見つかりませんが、以下では 7 つの一致が検出されるはずです。
(<content>)(.*?)(<\/content>)
ハイフンを処理する特別な方法があるかどうかはわかりませんが (私は正規表現に不慣れです)、誰かが私を助けてくれれば、それは大歓迎です.
ありがとう!
編集:正規表現は HTML を解析するためのものではないと言う前に、私はそれを知っていますが、これを簡単に見つけて置き換える方法は他にないようです。手動で削除して毎週ファイルを保存するには、あまりにも多くの発生があります。