[TSQL]判斷資料欄位是否有中文字(使用ASCII比對及PATINDEX兩種方法)

[TSQL]判斷資料欄位是否有中文字(使用ASCII比對及PATINDEX兩種方法)

前幾天剛好有朋友問,怎麼下TSQL判斷,資料表中欄位含有中文的字,
就先想到可以用先把字串分解成一個一個的字元,再來做 ASCII 的比對,
建立的副程式如下

我的想法是因為最後一個英文 z 是122 ,所以比 122 大就判斷不是英文,
而 A-Z,a-z 的範圍 ASCII 如下

-- a 97
-- z 122
-- A 65
-- Z 90

 

(@inString nvarchar(1000))
RETURNS int  
AS
BEGIN

DECLARE @flag int
 
DECLARE @valueLength int
SET @valueLength = LEN(@inString)
DECLARE @i int
SET @i = 1
WHILE @valueLength >= @i
BEGIN
	 DECLARE @ChcekValue int 

	 SELECT  @ChcekValue =  ASCII(SUBSTRING(@inString,@i,1))
	--SELECT @ChcekValue
	 if(@ChcekValue > 122)
	 BEGIN		
		-- 有中文
		SET @flag = 1
		-- 跳出
		BREAK 
     END
	 ELSE
     BEGIN
		SET @flag = 0
	 END
	 SET @i = @i +1	
END
  RETURN @flag
END

而 Function 的使用如下,將 Function傳入欄位值,會傳回 1 ,0 用來判斷,
也可以將 Function 拿來當 WHERE 的比對來使用

 FROM dbo.TestTemp
WHERE dbo.udf_IsContainChinese(value) = 1


image

後來想一想,是不是還有別的方法也可以判斷資料欄位中是否還有中文的值,
一直想到是不是有類似 Regular 的方式,後來查了一下 SQL 中有 PATINDEX 可以使用,
就想說找出第一個中文字的起點,再找出最後一個中文字,就能下規則的方式來找出,
後來有點懶惰,就用一個一個測試,猜數字的方式,來找出第一個中文,
而找出第一個中文跟最後一個中文測試的TSQL如下:

SELECT UNICODE('一')  
SELECT NCHAR(19968)
--土法煉鋼的方式找到'龥'是中文字的終點 40869
SELECT UNICODE('龥') 
SELECT NCHAR(40869)
-- 但'龥' 在用UNICODE查出卻是 63
-- 而在  40869 - 40861 龞,龟 .... 這幾個字查出來都是 63
-- 只有 '龜' 查出來是 40860

SELECT UNICODE('龜') 
SELECT NCHAR(40860)

因為欄位都會存 nvarchar 的方式,所以我用 UNICODE 的方式來查出,
但遇到了一個問題,最後一個中文字因該是 '龥' 40869 ,但NCHAR('龥')
卻是 63 ,而 40861 - 40869 這幾個字 NCHAR(' ') 都會是63,
這點到現在我也還沒搞懂,還望有高手能夠指點,
而慢慢的往前推,就發現 '龜' 字 40860 是可以在 NCHAR 傳回正常的 40860 ,
所以我就先認定合格的中文字範圍是 一-龜
而這個範例 TSQL使用 PATINDEX 程式碼如下:

 

FROM dbo.TestTemp
WHERE patindex('%[一-龜]%',value) > 0

執行畫面如下,也可以將PATINDEX當WHERE條件來比對

image

 

第二個方法比較是鎖定中文字的範圍,來做比對的方式,但有發生前面提到的
「而 40861 - 40869 這幾個字 NCHAR(' ') 都會是63」,這點還沒想通是什麼原因,
一般的資料欄位中是否中文比對,用兩種方式都能夠可以比對的出來,
或許還有更好的方法,還請大家多指點。

 

參考資源:
http://msdn.microsoft.com/zh-tw/library/ms188395.aspx