sql-server - SQL Server を使用して varchar 列の非 ASCII 文字を検索する

Question

SQL Server を使用して非 ASCII 文字を含む行を返すにはどうすればよいですか?
1 つの列に対してそれを行う方法を示すことができれば、それは素晴らしいことです。

私は今このようなことをしていますが、うまくいきません

select *
from Staging.APARMRE1 as ar
where ar.Line like '%[^!-~ ]%'

追加のクレジットとして、テーブル内のすべての 列にまたがることができれば、それは素晴らしいことです! varcharこのソリューションでは、次の 3 つの列を返すとよいでしょう。

そのレコードの ID フィールド。(これにより、別のクエリでレコード全体を確認できます。)
列名
無効な文字を含むテキスト

 Id | FieldName | InvalidText       |
----+-----------+-------------------+
 25 | LastName  | Solís             |
 56 | FirstName | François          |
100 | Address1  | 123 Ümlaut street |

無効な文字は、SPACE (32 ₁₀ ) から~(127 ₁₀ )の範囲外の文字です。

score 101 · Accepted Answer

PATINDEX を使用した単一列検索のソリューションを次に示します。
また、StartPosition、InvalidCharacter、および ASCII コードも表示されます。

select line,
  patindex('%[^ !-~]%' COLLATE Latin1_General_BIN,Line) as [Position],
  substring(line,patindex('%[^ !-~]%' COLLATE Latin1_General_BIN,Line),1) as [InvalidCharacter],
  ascii(substring(line,patindex('%[^ !-~]%' COLLATE Latin1_General_BIN,Line),1)) as [ASCIICode]
from  staging.APARMRE1
where patindex('%[^ !-~]%' COLLATE Latin1_General_BIN,Line) >0

score 26 · Accepted Answer

このようなことを試してください：

DECLARE @YourTable table (PK int, col1 varchar(20), col2 varchar(20), col3 varchar(20));
INSERT @YourTable VALUES (1, 'ok','ok','ok');
INSERT @YourTable VALUES (2, 'BA'+char(182)+'D','ok','ok');
INSERT @YourTable VALUES (3, 'ok',char(182)+'BAD','ok');
INSERT @YourTable VALUES (4, 'ok','ok','B'+char(182)+'AD');
INSERT @YourTable VALUES (5, char(182)+'BAD','ok',char(182)+'BAD');
INSERT @YourTable VALUES (6, 'BAD'+char(182),'B'+char(182)+'AD','BAD'+char(182)+char(182)+char(182));

--if you have a Numbers table use that, other wise make one using a CTE
WITH AllNumbers AS
(   SELECT 1 AS Number
    UNION ALL
    SELECT Number+1
        FROM AllNumbers
        WHERE Number<1000
)
SELECT 
    pk, 'Col1' BadValueColumn, CONVERT(varchar(20),col1) AS BadValue --make the XYZ in convert(varchar(XYZ), ...) the largest value of col1, col2, col3
    FROM @YourTable           y
        INNER JOIN AllNumbers n ON n.Number <= LEN(y.col1)
    WHERE ASCII(SUBSTRING(y.col1, n.Number, 1))<32 OR ASCII(SUBSTRING(y.col1, n.Number, 1))>127
UNION
SELECT 
    pk, 'Col2' BadValueColumn, CONVERT(varchar(20),col2) AS BadValue --make the XYZ in convert(varchar(XYZ), ...) the largest value of col1, col2, col3
    FROM @YourTable           y
        INNER JOIN AllNumbers n ON n.Number <= LEN(y.col2)
    WHERE ASCII(SUBSTRING(y.col2, n.Number, 1))<32 OR ASCII(SUBSTRING(y.col2, n.Number, 1))>127
UNION
SELECT 
    pk, 'Col3' BadValueColumn, CONVERT(varchar(20),col3) AS BadValue --make the XYZ in convert(varchar(XYZ), ...) the largest value of col1, col2, col3
    FROM @YourTable           y
        INNER JOIN AllNumbers n ON n.Number <= LEN(y.col3)
    WHERE ASCII(SUBSTRING(y.col3, n.Number, 1))<32 OR ASCII(SUBSTRING(y.col3, n.Number, 1))>127
order by 1
OPTION (MAXRECURSION 1000);

出力：

pk          BadValueColumn BadValue
----------- -------------- --------------------
2           Col1           BA¶D
3           Col2           ¶BAD
4           Col3           B¶AD
5           Col1           ¶BAD
5           Col3           ¶BAD
6           Col1           BAD¶
6           Col2           B¶AD
6           Col3           BAD¶¶¶

(8 row(s) affected)

score 25 · Accepted Answer

私はこのコードをうまく実行してきました

declare @UnicodeData table (
     data nvarchar(500)
)
insert into 
    @UnicodeData
values 
    (N'Horse�')
    ,(N'Dog')
    ,(N'Cat')

select
    data
from
    @UnicodeData 
where
    data collate LATIN1_GENERAL_BIN != cast(data as varchar(max))

これは、既知の列に適しています。

おまけとして、特定のテーブルのすべての nvarchar 列で Unicode 文字を検索する簡単なスクリプトを作成しました。

declare 
    @sql    varchar(max)    = ''
    ,@table sysname         = 'mytable' -- enter your table here

;with ColumnData as (
    select
        RowId               = row_number() over (order by c.COLUMN_NAME)
        ,c.COLUMN_NAME
        ,ColumnName         = '[' + c.COLUMN_NAME + ']'
        ,TableName          = '[' + c.TABLE_SCHEMA + '].[' + c.TABLE_NAME + ']' 
    from
        INFORMATION_SCHEMA.COLUMNS c
    where
        c.DATA_TYPE         = 'nvarchar'
        and c.TABLE_NAME    = @table
)
select
    @sql = @sql + 'select FieldName = ''' + c.ColumnName + ''',         InvalidCharacter = [' + c.COLUMN_NAME + ']  from ' + c.TableName + ' where ' + c.ColumnName + ' collate LATIN1_GENERAL_BIN != cast(' + c.ColumnName + ' as varchar(max)) '  +  case when c.RowId <> (select max(RowId) from ColumnData) then  ' union all ' else '' end + char(13)
from
    ColumnData c

-- check
-- print @sql
exec (@sql)

私は動的 SQL のファンではありませんが、このような探索的クエリには用途があります。

score 16 · Accepted Answer

このスクリプトは、1つの列で非ASCII文字を検索します。すべての有効な文字の文字列を生成します。ここでは、コードポイント32から127です。次に、リストに一致しない行を検索します。

declare @str varchar(128);
declare @i int;
set @str = '';
set @i = 32;
while @i <= 127
    begin
    set @str = @str + '|' + char(@i);
    set @i = @i + 1;
    end;

select  col1
from    YourTable
where   col1 like '%[^' + @str + ']%' escape '|';

score 3 · Accepted Answer

Web で利用可能なユーザー定義関数「Parse Alphanumeric」があります。Google UDF は英数字を解析し、そのコードを見つける必要があります。このユーザー定義関数は、0 ～ 9、az、AZ の間に収まらないすべての文字を削除します。

Select * from Staging.APARMRE1 ar
where udf_parsealpha(ar.last_name) <> ar.last_name

これにより、無効な文字を含む last_name を持つレコードが返されるはずです...ボーナスポイントの質問はもう少し難しいですが、ケースステートメントで処理できると思います。これは少し疑似コードです。うまくいくかどうかは完全にはわかりません。

Select id, case when udf_parsealpha(ar.last_name) <> ar.last_name then 'last name'
when udf_parsealpha(ar.first_name) <> ar.first_name then 'first name'
when udf_parsealpha(ar.Address1) <> ar.last_name then 'Address1'
end, 
case when udf_parsealpha(ar.last_name) <> ar.last_name then ar.last_name
when udf_parsealpha(ar.first_name) <> ar.first_name then ar.first_name
when udf_parsealpha(ar.Address1) <> ar.last_name then ar.Address1
end
from Staging.APARMRE1 ar
where udf_parsealpha(ar.last_name) <> ar.last_name or
udf_parsealpha(ar.first_name) <> ar.first_name or
udf_parsealpha(ar.Address1) <> ar.last_name

これはフォーラムの投稿ボックスに書いたので、そのままで機能するかどうかはわかりませんが、近いはずです。1 つのレコードに無効な文字を含む 2 つのフィールドがある場合、どのように動作するかはよくわかりません。

別の方法として、from 句を単一のテーブルから離れて、次のようなサブクエリに変更できるはずです。

select id,fieldname,value from (
Select id,'last_name' as 'fieldname', last_name as 'value'
from Staging.APARMRE1 ar
Union
Select id,'first_name' as 'fieldname', first_name as 'value'
from Staging.APARMRE1 ar
---(and repeat unions for each field)
)
where udf_parsealpha(value) <> value

ここでの利点は、すべての列に対してユニオンステートメントを拡張するだけで済みますが、このスクリプトの case ステートメントバージョンでは、すべての列に対してその比較を 3 回行う必要があります。

sql-server - SQL Server を使用して varchar 列の非 ASCII 文字を検索する

8 に答える 8

Related

Reference