sql-server - SQL Serverデータベース内のすべての不正な形式のHTMLエンティティを解析して置き換えるにはどうすればよいですか？

Question

データが解析されたデータベースがあります。解析中に、アンパサンドとセミコロンが削除され、HTMLエンティティの束が台無しになりました。

たとえば、次のようにデータが保存されています。

#7779avaf#299

どちらにする必要があります：

&#7779;avaf&#299;

私はこれらのいくつかを次のように置き換え始めました：

REPLACE ( FIELD1, '#7779' , '&#7779;' )

ただし、エンティティごとに新しい置換を作成する必要があります。私は正規表現があまり得意ではありません。＃の後に3桁または4桁の数字を続けて、＆＃の後に同じ3桁または4桁の数字を続けてセミコロンで置き換える、考えられるすべての組み合わせを一致させる方法はありますか？

score 0 · Accepted Answer

一致するすべてのターゲットテキストを抽出する正規表現を次に示します。

(#\d{3,4})

REPLACE次に、生成されるリストを使用してステートメントを生成するか、正規表現エンジンのバックトラッキング機能を使用して一致したグループを動的にラップする構文を理解することができます。&;

T-SQL 正規表現ワークベンチには、上記のような正規表現の使用方法SELECTの例がいくつかあります。方法だけでREPLACEなく。

score 0 · Accepted Answer

すべての # が特定のフィールドの HTML エンティティに属することを保証できる場合は、次のようにすることができます。

UPDATE myTable SET [FIELD1] = REPLACE(FIELD1, '#', '&#')
UPDATE myTable SET [FIELD1] = STUFF(FIELD1, (CHARINDEX(FIELD1, '#') + 5), 0, ';')

そうでない場合は、SQL がネイティブでサポートしていないため、おそらく REGEX 一致用の CLR 関数を作成する必要があります。

2 に答える 2