[SQL][效能調教]在 SQL 內使用 LIKE 或 Substring 來做字串資料的效能問題

2017-01-12

常常有人會說使用 LIKE 或比較慢，或者是使用 Substring 會比較慢，到底該怎麼來做選擇呢 ?

早上看到 FB 中有人 Po 了一篇文章「SQL 「Like +'%'」與SUBSTRING 進行資料欄位開頭比對」，本來覺得沒有甚麼特別，剛好又遇到有同事轉 Po 給我，跟我說怎麼跟我之前說明的不同，因此決定整理一下自己的想法，來做個說明。

在這個部分我建立一個範例資料表 BigTable 來做個說明

 -- 建立資料表
CREATE TABLE [BigTable]
(
    A1    INT,
    A2    NVARCHAR(10),
    A3    VARCHAR(10),
    A4    NCHAR(200),
)
GO
  
DECLARE @I INT;
DECLARE @J INT;
DECLARE @K INT;
  
SET @J = 0;
-- 產生一千萬筆的資料，為了避免交易記錄檔過大，每一萬筆資料放在一個 Transaction 內
SET NOCOUNT ON;
WHILE @J < 1000
BEGIN
    SET @I = 0;
    BEGIN TRAN
    WHILE @I < 10000 
    BEGIN
        SET @K = @J*10000+@I ;
        INSERT INTO [BigTable] ( A1,A2,A3,A4 ) VALUES ( @K, RIGHT('0000000000'+LTRIM(STR(@K)),10), RIGHT('0000000000'+LTRIM(STR(@K)),10), NEWID())
        SET @I += 1; 
    END    
    COMMIT
    SET @J += 1; 
END
GO

一開始我們先不建立任何的索引，直接就拿兩種不同的語法來做比較

SET STATISTICS TIME ON
SET STATISTICS IO ON

-- 使用 LIKE
select * from BigTable
  where A3 LIKE '00000001%'

-- 使用 Substring
select * from BigTable
  where SUBSTRING(A3,1,8) = '00000001'

SET STATISTICS IO OFF
SET STATISTICS TIME OFF

當執行之後，從下圖中可以看出來，這兩個指令都會撈出同樣的資料，對資料表讀取的次數也都相同，時間也都是不到一秒的差異，因為都是採用 Table Scan 的方式去取得資料，因此可以視為這兩指令執行的效能看起來是相同的。

可是，如果當我們在這個 A3 的欄位上建立索引的話，那我們來試試看

CREATE INDEX IX_BigTable ON BigTable(A3)
GO

當建立完索引之後，我們再重新下剛剛同樣的查詢指令，從時間和 IO 的存取數據上看起來，當有配合 Index 的時候，使用「Like +'%'」的方式，效能會比使用 SubString 的方式來的好。

那為什麼會這樣呢 ? 我們來看一下這兩者執行計畫的差異，會發現當使用 LIKE 語法的時候，執行計畫中會採用「索引搜尋」，而使用 Substring 的話，就只能使用「索引掃描」。

那為什麼使用 LIKE 的話，為什麼可以採用「索引搜尋」而不跟使用 Substring 的方式一樣呢 ? 我們可以更細的來看索引搜尋的那個 Operation ，可以發現當我們使用「Like +'%'」的方式，資料庫在產生執行計畫的時候，會很聰明的轉換成為起訖資料的方式來做搜尋，因此就可以直接使用 Index 來加速搜尋。但如果使用 Substring 的時候，因為需要把每一筆的那個欄位值丟到 Function 內先做處理才能判斷，因此最多也就只能配合索引掃描了。

那為什麼有些時候有些人做出來的狀況卻是相反的呢 ? 這就有很多的可能性了，有可能他修改前和修改後，剛好資料都已經先載入到記憶體內，或者是因此 SQL Server 變更成為不同的執行計畫，都是有可能造成可能會有不一樣的結果，因此當我們在測試的時候，還是最好要多注意看一下執行計畫和執行統計資訊的結果，這樣才有辦法做出正確的判斷。

如果對這有興趣的朋友，也可以參考另外兩篇的文章

回首頁

五餅二魚工作室

James Fu 的技術學習之路

[SQL][效能調教]在 SQL 內使用 LIKE 或 Substring 來做字串資料的效能問題

山不轉路轉 - 處理字串欄位相加的比對問題

利用 REVERSE 來解決查字尾時無法搭配索引使用的困擾

系列文章

標籤雲