最近、古いブログ (SharePoint) から現在のブログ (WordPress) に多数のブログ投稿をインポートしようとしました。インポートが完了すると、多くの厄介な<div>
タグやその他の HTML が投稿のコンテンツに取り込まれ、サイトのレンダリング方法が台無しになりました。
MySQL データベースで問題のある行を表示できます。問題を引き起こしている可能性のある HTML テキストを選択的に削除する方法があるかどうかを知りたいです。 おそらくテキストを解析することで C# でこれをハックできますが、可能であれば SQL を使用してこれを行う方法を理解したいと思います。
これらのファイルの 1 つがデータベースのテキスト フィールドにどのように表示されるかを示す全文サンプルをご覧になりたい場合は、完全なサンプル ファイルを私の Web サイト にアップロードしました。
これが私がやりたいことです:
<![CDATA[<div><b>Body:</b>
すべてのファイルの先頭から削除次のように、すべてのファイルの末尾にあるメタ情報を削除します。
<div><b>Category:</b> SharePoint</div> <div><b>Published:</b> 11/12/2007 11:26 AM</div> ]]>
次のようなクラス属性を持つ可能性のあるすべてのタグ
<div>
と終了タグを削除します。</div>
<div class=ExternalClass6BE1B643F13346DF8EFC6E53ECF9043A>
注: ExternalClass の末尾の 16 進文字列は異なる場合があります
以前に MySQL で Update ステートメントを使用したことがなく、テキスト フィールド内のテキストを選択的に置換する場所をどこから始めればよいか途方に暮れています。SQL ステートメント内から正規表現を使用して支援しますか? リモート DB に対してステートメントを実行するにはどうすればよいですか?