sql-server - 列に単語の頻度を表示する SQL サーバー関数

Question

参加者が回答を入力することを許可されたアンケートからのフリートテキスト入力をリストした表があります（結婚式で希望する色に関して）

この列からすべての情報を収集する SQL 関数を作成したいと思います。orders は各単語の頻度をカウントし、このカウントによって結果セットを並べ替えます。

Response
--------
Red and White
green
White and blue
Blue
Dark blue

上の表を次のように並べてほしい

Response  Frequency
--------  ---------
Blue      3
White     2
And       2
Red       1
Green     1

関数が実行された後、「and」などの不要な単語をすべて取り除くことができます。この動作を生成する良い関数を知っている人はいますか?

score 4 · Accepted Answer

さて、これは御馳走になります。まず、値を区切る関数...

Alter Function dbo.SeparateValues    

(    
 @data VARCHAR(MAX),    
 @delimiter VARCHAR(10)     
)     
RETURNS     
@tbldata TABLE(col VARCHAR(MAX))    
As    
--Declare @data VARCHAR(MAX) ,@delimiter VARCHAR(10)     
--Declare @tbldata TABLE(col VARCHAR(10))    
--Set @data = 'hello,how,are,you?,234234'    
--Set @delimiter = ','    
--DECLARE @tbl TABLE(col VARCHAR(10))    
Begin    
DECLARE @pos INT    
DECLARE @prevpos INT    
SET @pos = 1     
SET @prevpos = 0    

WHILE @pos > 0     
BEGIN    
SET @pos = CHARINDEX(@delimiter, @data, @prevpos+1)    
if @pos > 0     
INSERT INTO @tbldata(col) VALUES(LTRIM(RTRIM(SUBSTRING(@data, @prevpos+1, @pos-@prevpos-1))))    
else    
INSERT INTO @tbldata(col) VALUES(LTRIM(RTRIM(SUBSTRING(@data, @prevpos+1, len(@data)-@prevpos))))    
SET @prevpos = @pos     
End    

RETURN       
END

それを自分のテーブルに適用するだけです...

Select Count(*), sep.Col FROM (
        Select * FROM (
            Select value = Upper(RTrim(LTrim(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(response, ',', ' '), '.', ' '), '!', ' '), '+', ' '), ':', ' '), '-', ' '), ';', ' '), '(', ' '), ')', ' '), '/', ' '), '&', ''), '?', ' '), '  ', ' '), '  ', ' ')))) FROM Responses
        ) easyValues
        Where value <> '' 
    ) actualValues 
    Cross Apply dbo.SeparateValues(value, ' ') sep
    Group By sep.Col
    Order By Count(*) Desc

わかりましたので、ネストされたテーブルで OTT を使用しましたが、がらくた文字をすべて取り除き、値を分離し、最も頻繁に使用される単語の現在の合計を保持しました。

score 2 · Accepted Answer

DECLARE @phrases TABLE (id int, phrase varchar(max))
INSERT @phrases values
(1,'Red and White'  ),
(2,'green'          ),
(3,'White and blue' ),
(4,'Blue'           ),
(5,'Dark blue'      );

SELECT word, COUNT(*) c
FROM @phrases
CROSS APPLY (SELECT CAST('<a>'+REPLACE(phrase,' ','</a><a>')+'</a>' AS xml) xml1 ) t1
CROSS APPLY (SELECT n.value('.','varchar(max)') AS word FROM xml1.nodes('a') x(n) ) t2
GROUP BY word

word         freq
----------- -----------
and         2
blue        3
Dark        1
green       1
Red         1
White       2

sql-server - 列に単語の頻度を表示する SQL サーバー関数

3 に答える 3

Related

Reference