<p></p>
クライアントの古いmysqlデータベースを新しいワードプレスシステムに移動しています(古いものもwpでした)。コンテンツを直接インポートするため、彼の記事はすべて、さまざまなスタイルのHTMLタグが大量に保存されていることに気付きました。マイクロソフトワード。私はすでにクライアントにPasteFromWordを使用し、新しい記事を保存する前に彼の記事をクリーンアップするように説得しました。
<p style="different_styles_every_time"></p>
さて、ゴミを残さずに、できれば元の改行を残さずに、すでに保存されているすべてのタグを削除する安全な方法はありますか?
私は正規表現の調査を開始しましたが、ここでの多くの回答は、HTMLの解析に正規表現を使用しないようにアドバイスしています。手がかりはありますか?