1,000,000 行と文字列テーブルがあり、エンコード エラーのために内部にガベージが含まれています。
ごみは最小限ですが、見つける必要があります。
問題の列はNVARCHAR
、通常 11 の言語のいずれかでテキストを含む列です。
すべてのテキストは Unicode である必要があります (アプリケーション側で処理する場合は utf-8)。
破損した列には、?
文字や非常に限られた珍しいグリフ セットが含まれており、有効な言語ではないことが容易にわかります。これらの列は逆方向および順方向にエンコードされて総ガベージになっている可能性があります。
速度の名の下に、SQL Serverで不正なエンコーディング/文字列のゴミを検出するためにできることはありますか?
ありがとう。
ゴミの例を追加する編集:
これはロシア語のилиÐ~мÑУчаÑтникаでした</p>