Windows Server 2012的Deduplication儲存技術簡介及設定

Windows Server 2012的Deduplication儲存技術簡介及設定

Deduplication這一詞已不新鮮, 在很多儲存媒介早已引入, 卻不是太多企業投入及了解,

因為技術早期只出現在貴氣的儲存媒體上, 例如SAN之類動輒牽涉百萬投資的產品,

不是中小企能夠負擔得起來, 現在Windows Server 2012把這個概念引入, 減低企業儲存資料的成本.

 

Deduplication 這個詞, 意指去除重複的東西, 我們的電腦有甚麼資料是重複的?

例如家中的mp3檔…爸爸下載了一遍, 哥哥又重複下載一遍…又例如旅行的相片…

很多時都會有相同的檔案存在, 如果檔案系統知道它們已經存在了, 少一份mp3, 就省5 MB.

 

在企業儲存裡, 更多更多的東西是重複的, 例如一份工作部表,

同事A有一份, 同事B也有, 都把這個檔案另抄一份到User Profile裡.

如果有deduplication技術引入, 雖然兩為同事都放了一份相同的文件, 但其實只佔我們一組的空間.

如果更多使用者做相同的事, Deduplication能帶來的效率就更大.

 

以上都是一些以檔案為基礎的Deduplication技術, 就是說檔案內容相同才會有用.

而Windows Server 2012的技術更進一步以Chunk (Block) 為基礎, 把檔案再拆細為某一個KB數(32kb ~128kb)一組的單位,

 

這個好處就大了, 試想想一份Excel請假表格, 基本上每個檔案裡80%內容都是那表格的內容,

但每請一次假期, 人力資訊部就製造多一份不同的.xlsx檔案出來作備份,

Deduplication後, 如果表格內容佔1 MB, 用1 MB磁區就可以了, 其他需要人手填寫的記錄才去佔用更多空間 (Chunks).

 

第二個例子是虛擬機器的 .VHD / .VHDX檔案, 重複的部份更多, 例如Windows檔案, 預載程式,

如果有10台Windows Server 2012的虛擬機, 就有10份同樣的System32, 等等等等…所以效果更明顯.

圖像化一點 (抱歉藝術天份很差) , 就像這樣, 真的很能省空間.

image

 

而根據Microsoft做的研究, 每種data能省的空間也不同, 例如VHD磁碟庫能省超過80%

使用者的Home Folder能省的就少很多了 (大家都有不同的mp3噢…)

clip_image003

 

雖然這麼好用, 不過還是有一點限制的

1. Windows Server 2012才能用, Windows 8沒有這個功能

2. Boot 或 System 磁碟不能用

3. 不是NTFS的磁碟不能用 (新的ReFS也不行)

4. Cluster Shared Volumes(CSV)不能用

5. 加密檔案不能用

6. 暫時不能以群組原則設定

除此之外, Windows Server 2012 Deduplication是以磁碟機為單位的, 並不是全局佈置.

而且會影響讀取表現, 套用後磁碟性能大約下降 3%左右,

但這不會影響寫入表現, 因為資料是寫入磁碟後才作背景處理的. 而且會以Check-Sum等技術保證資料完整性.

 

微軟推薦啟用Deduplication的磁碟機

1. 使用者的Home Folder

2. VHD儲存區 (不含VDI的VHD)

3. 程式安裝檔儲存區

4. 僅作備份的SQL Database及Exchange Database

 

微軟不推薦啟用Deduplication的磁碟機

1. Hyper-V主機

2. VDI的VHD儲存區

3. WSUS檔案

4. SQL/Exchange 資料庫

5. 大量大檔案的磁碟

 

最重要需注意的是, 沒有Deduplication Feature的Windows會抓不到Deduplicate後的檔案.

所以這片啟用了Deduplication的磁盤只能移動到其他Windows Server 2012繼續運作.

你可以想像Dedup後的磁盤需要一個特定的軀動程式來做Mount的動作, 而現在只支援到Server 2012,

只要磁盤掛起了, 其他機器要存取就沒問題

 

其他作業系統在存取上是沒有問題的, 因為存取過程會被Deduplication Filter Driver分析處理.

例如現在有一個備份系統要存取檔案, 會有兩個可能:

1. 備份軟件以Block-Base運作, Deduplication Server會把Dedup後的Block傳送過去, 令備份時間縮短

2. 傳統的備份軟件以File-Base運作, Deduplication Server會把檔案先嵌合後傳送過去.

 

再來看看設置過程

 

在Server Manager裡Add Roles and Features

image

選Role-Based or Feature-Based Installation

image

打開檔案服務角色, 選Data Deduplication

image

就可以開始安裝了

image

安裝後檢查磁碟機會發現Deduplication Rate/ Saving等等的欄目, 由於還未設定, 所以空空如也

image

在想要啟動功能的磁碟機上右擊, 選Configure Data Deduplication

image

設定頁面有5個元素,

1. 設定Deduplication狀態

2. 選擇受影響的檔案, 預設5天, 所以並不是檔案寫入後立即就會做Deduplication,

    此舉為面浪費資源為短暫儲存的檔案做Deduplication.

3. 永遠不做Deduplication的檔案, 例如你可以輸入 jpg,jpeg,gif 這樣以逗號分隔

4. 永遠不做Deduplication的Folder

5. 進行Deduplication的周期

image

周期設定頁裡, 首先可以啟動背景執行, 那麼系統在Idle情況下會用少量系統資源來做

再來可以設定系統在某個時段全速做Deduplication.

image

按OK確認後會見到版面的轉變

image

以PowerShell 指令Get-DedupStatus也能查看狀態

image

你也可以用PowerShell 手動命令進行Deduplication, 指令是

Start-DedupJob 磁碟名稱 -Type Optimization

也可以用Get-DedupJob查看工作狀態

image

不消一會這功能就幫我省下18.7 GB的空間了!

image

啟用後在舊系統的存取是沒有問題的(圖中用的是Windows Server 2003)

image

以下是所有能用的Deduplication PowerShell cmdlet

image

最後噢…如果這篇文章只需要我打一次Deduplication那該多好! 哈哈 嚎啕大哭

 

引用連結:

http://technet.microsoft.com/en-us/library/hh831602.aspx

http://blogs.technet.com/b/filecab/archive/2012/05/21/introduction-to-data-deduplication-in-windows-server-2012.aspx

http://jeffwouters.nl/index.php/2012/01/disk-deduplication-in-windows-8-explained-from-a-to-z/