企事業單位在數據中心機房內配置計算機設備、服務器、存儲等IT設備及配套的基礎設施(包含:供配電系統、空調系統、監控系統、消防系統、運維管理等系統),并按信息系統的重要性分別采取容錯或冗余等保障措施。
為規范數據中心基礎設施的運維管理,各企事業單位應參照相關國家標準建立運維管理體系、制度、流程等措施,保證信息化業務安全、穩定、正常運行。圖1示出了保證數據中心正常運行的內容。
國標GB/T51314-2018《數據中心基礎設施運行維護標準》是根據住房和城鄉建設部《關于印發<2015年工程建設標準規范制訂、修訂計劃>的通知》(建標[2014]189號)的要求,由中國建筑標準設計研究院有限公司、工業和信息化部電子工業標準化研究院會同中國石油天然氣股份有限公司勘探開發研究院等有關單位共同編制完成。
這是一本技術標準,主要運行維護對象是數據中心基礎設施系統和設備,不包括電子信息系統和相關設備。這個標準適用于已投入運行的數據中心。
一、數據中心運行維護范圍
數據中心基礎設施運行維護范圍應包括下列系統:電氣系統、通風空調系統、消防系統、智能化系統。
電氣系統的運行維護范圍應包括:供配電系統、不間斷電源和后備電源系統、照明系統、配電線路布線系統、防雷與接地系統。
通風空調系統的運行維護范圍應包括:冷源和水系統、機房空調和新風系統。
消防系統的運行維護范圍應包括:火災自動報警系統、消防聯動系統、自動滅火系統。
智能化系統的運行維護范圍應包括:環境和設備監控系統、安全防范系統。
數據中心正式投入使用前應進行綜合系統測試。運行維護團隊宜參與基礎設施系統和設備安裝、調試和驗證的過程。
二、數據中心運行維護的基本目標
通過有效地計劃、組織、協調與控制,確保電子信息設備運行環境穩定可靠。
通過科學管理,實現數據中心基礎設施運行維護服務與經濟性的最優化。
數據中心基礎設施的運行維護宜按不同設計或建設等級進行。
數據中心場地周邊的地質災害、水災、火災等隱患應定期進行檢查。
電力、制冷和消防運行維護人員發現基礎設施系統和設備隱患、異常、故障、報警等問題,應按照事件管理程序或既定處理措施處理。基礎設施系統與設備故障和維護期間,應有相應的保障措施和應急預案。數據中心運行維護操作人員應具備行業規定的職業資格。
三、數據中心運行維護規定主要內容
基礎設施系統與設備運行應包括值班、監控、日常巡檢、運行操作、報警和事件處理等內容。A級數據中心應24小時值班,B級和C級數據中心宜按照電子信息設備負載的重要性確定值班時間。
消防系統和安全防范系統應24小時保持正常工作狀態,不得隨意中斷。
運行人員應按照巡檢計劃、周期、規定路線對基礎設施系統和設備及運行環境進行巡檢,巡檢記錄應及時、完整、真實、清晰。
A級數據中心每日現場巡檢次數不應少于2次,B級和C級數據中心每日現場巡檢次數不應少于1次。
有能耗計量系統的數據中心,應保證能耗計量裝置正常工作,數據完整有效。數據中心能耗數據應定期進行綜合分析,合理優化電氣與通風空調系統的運行控制策略,提高整體電能使用效率。設備有備用或冗余的,應輪換使用。
在各企事業單位應用中,主要是大型或超大型數據中心須單獨設置運行崗位,分不同專業的運行技術人員對數據中心機房及相關輔助用房和電氣系統、通風空調系統、消防系統、智能化系統進行實時監控和現場安全值班、日常巡檢、運行操作、報警和事件處理等內容。
四、數據中心運行維護管理注意事項
維護工作應包括預防性維護、預測性維護和維修等內容。
基礎設施系統和設備應進行標識,標識應設置于顯著位置。
保修期滿的設備應采取措施確保維護保養服務的連續性。
基礎設施設備周圍應保持整潔,無雜物堆放,確保維護維修通道通暢。
數據中心維護管理人員應定期對基礎設施系統和設備的運行狀態進行風險分析與評估,根據評估結果進行預測性維護。
設有內置時鐘的設備應定期檢查并進行校準,與標準時間同步。
環境和設備監控系統、安全防范系統宜定期對數據進行備份,并對備份數據進行驗證。
在各企事業單位應用中主要是大型或超大型數據中心單獨設置維護崗位,分不同專業的維護技術人員對數據中心機房及相關輔助用房和電氣系統、通風空調系統、消防系統和智能化系統進行維護、保養和維修。
五、加強“預防性維護”
“預防性維護”是指為降低數據中心基礎設施系統和設備發生失效或功能退化的概率,按預定的時間間隔或按既定的準則實施的維護。
在各企事業單位應用中,預防性維護是以預防故障和功能退化為目的,對于事先防止數據中心基礎設施系統設備故障的維護性工作。主要包括:電氣系統、通風空調系統、消防等系統的各種運行數據和狀況進行分析研究,提前對易損部件或出現風險隱患的設施進行維護、保養和維修。
“預測性維護”是指通過各種技術手段進行數據和信號的采集、分析,同時結合設備運行的壽命期統計規律或歷史數據。預測可能后果,提前采取的有針對性的維護活動。
預測性維護是以運行狀態為依據的維修與維護。在設備或系統運行時,對它的主要部位進行定期或連續的狀態監測和故障診斷,判定設備或系統所處的狀態,預測其未來發展趨勢,針對可能發生的故障進行維護活動。
預測性維護首先要做定期(離線)或連續(在線)的設備狀態監測,以確定在設備發生故障前的成本效益最優的維護時機。
六、數據中心基礎設施的運行管理模塊流程
數據中心基礎設施的運維管理包括運行管理對象、運行管理支撐工具、運行管理模式、運行管理流程和運行管理持續改進等模塊。
數據中心基礎設施的運維管理流程,見圖2。
1.運行管理流程:服務臺的管理以及事件、問題、配置、變更、發布、知識、供應商、業務關系、服務級別管理等多個核心流程。
2.流程管理制度:事件、問題、配置、變更、發布、知識、供應商、業務關系、服務級別管理等9個核心流程的管理制度。
3.運維管理制度:機房管理、維護作業管理、值班管理、技術檔案資料管理、設備管理、運行平臺管理、重要作業公告管理等。
4.綜合管理制度:安全管理、文檔管理、質量管理、客戶管理、外包管理及上墻制度。數據中心的服務流程、制度與流程,見圖3。
其中又對規章制度、IT服務流程、操作與維護管理手冊所包含的內容作了說明,如圖4所示。
數據中心基礎設施的運維管理需要詳細編制操作手冊、應急操作流程(EOP)和應急預案,提升運維團隊應對突發事件的管理能力。
為了保證數據中心安全穩定地運行首先要完善基礎設施的運維管理,圖6就示出了必要的保障措施示意圖。
七、案例分析
按照GB50174-2017國家標準規劃數據中心來規劃機房設備的安裝與擺放是保證系統安全運行的基本準則,否則有可能出現問題。比如標準中要求供電設備的UPS和蓄電池組不能安置在同一空間內,要進行物理隔離,目的是一旦其中出現故障也不要會影響其它。
新疆一單位數據中心由于忽略了標準的要求,將電池和UPS放在一起,如圖7所示。其目的是靠近UPS滿足電池放電時減小電纜壓降的要求。但當電池起火燃燒時的黑煙被正在運行的UPS吸收,在UPS所有電路板上覆蓋了一層厚厚的無法洗掉的油煙,導致了UPS報廢,相當一段時間整個數據中心停止工作,造成了不可彌補的損失。