Drupalに移行するブログからかなり大きなWordPress.XMLエクスポートファイルがあります。エクスポートファイルの明らかな問題の1つは<p>
、段落区切りのタグが欠落していることです。ただし、タグは実際のサイトに存在します。
<p>
XMLファイルの生のテキストからわかるように、単一のタグがあるはずの段落の間に複数の改行があります。<p>
RegExを使用して、改行と大文字のタグをグローバルに追加したいと思っていましたが、それがどのように機能するかについての実用的な知識がありません。問題のテキストを含むエクスポートファイルのサンプルXMLタグは次のとおりです。
<content:encoded><![CDATA[Lorem ipsum dolor sit amet, consectetur adipiscing elit. Curabitur gravida risus at sem interdum iaculis. Curabitur eget est tellus, quis viverra arcu.
Cras posuere turpis imperdiet odio aliquet sollicitudin. Maecenas et neque eget quam fringilla tempor. Vivamus sodales vulputate consectetur.
Sed ullamcorper elementum est, at dapibus orci fermentum vitae. Vivamus nisi turpis, pretium sed tincidunt et, dapibus at eros. Quisque neque magna, posuere eget eleifend ut.
上記からわかるように、段落の間に複数の改行があります。私は、正規表現の改行と大文字の組み合わせを考えていました。これは、1つのタグのみを配置し、XMLファイルの他の場所にタグを追加しないようにXMLタグを<p>
具体的にターゲットにすることです。<content:encoded>
物事をより複雑にするもう1つの問題は、一部の段落<p>
に、エディターがのようなカスタムクラスで追加されたタグがすでに含まれていること<p class="myclass">
です。