企業(yè)IT系統(tǒng)越來越多,網絡、設備和產品越來越復雜,業(yè)務越來越依賴于穩(wěn)定可靠的系統(tǒng)運行,公司內部和外部用戶對IT部門的支持服務和協(xié)調管理也提出了更高的要求,如果企業(yè)的運行設備出現(xiàn)了故障,往往會給企業(yè)帶來巨大的損失。此時,往往企業(yè)會要求運維部門力保設備的運行正常,同樣運維部門也會提出相關的口號,例如,連續(xù)100天運維無故障。也就是我們常說的零故障。
IT部門如果缺乏快速有效的協(xié)調機制和必要的輔助管理工具,就會出現(xiàn)“救火隊式”的混亂局面,其主要表現(xiàn)如下:
%26#61550;
被動響應式的工作方式。
%26#61550;
很難及時發(fā)現(xiàn)和預見問題的發(fā)生。
%26#61550;
問題出現(xiàn)后,很難快速、準確地找到根本原因,并及時地找到相應的人進行修復和處理。
%26#61550;
問題找到后,缺乏流程化的故障處理機制。
%26#61550;
支持過程總是被打斷和干擾。
%26#61550;
關鍵人員的工作負載過重。
%26#61550;
缺乏過程和變化的跟蹤記錄。
%26#61550;
IT支持部門面臨不斷改進服務和降低成本的壓力。
%26#61550;
服務請求的響應時間和質量無法衡量。
%26#61550;
決策基于“我認為”而不是“我知道”。
結果造成IT部門整天疲于奔命,無法滿足服務時效性和穩(wěn)定性的需求。這種工作模式下的IT資源管理,不僅IT部門吃力不討好,而且也無法發(fā)揮IT系統(tǒng)的整體性能和功能,同樣也無法達到企業(yè)提出的零故障的要求。
什么是零故障
對故障我們已作定義就是設備失去了規(guī)定的功能,再從故障的字面看,它是由人“故”意而引起的“障”礙,即故障的根源在人,它是由於人的思維方法和行動上的錯誤而引起的,也就是說人們的認識及其相應的行為的結果以故障的形式表現(xiàn)出來。因此只要改變與設備相關的所有人的認識,增加相應的知識,提高其技能,改進其方法和行動,故障就會消失。
有人可能要問,按照零故障觀點,設備豈不可以永久地使用下去了嗎,這里我們要區(qū)分兩個不同的概念就是自然老化和強制惡化。所謂自然老化就是雖然 使用方法正確,但隨著時間的推移,設備發(fā)生了性能逐漸下降。而所謂的強制惡化是指未按應有的方法作業(yè),人為地促使了惡化。因此零故障觀點的意義在於指導我們正確認識故障,做該做的事以避免強制惡化,延緩自然老化。
為了實際推進這項工作,我們針對可能產生故障的原因,導出實現(xiàn)零故障的四大對策:
1、具備基本條件
所謂具備基本條件,就是指CPU、內存、硬盤等硬件設備。故障是由設備的劣化引起的,但大多數(shù)故障是由於基本條件3要素引起的。
2、嚴守使用條件
機器設備在設計時就確定了使用條件。嚴格按照使用條件使用,設備就很少產生故障。比如電壓、轉速、溫度及安裝條件等,都是根據(jù)設備的特點而決定的。
3、使設備恢復正?!?br>
一臺設備,即使具備了基本條件,保證使用條件,由於很難做到十全十美,因此設備還是會發(fā)生劣化,產生故障。所以使隱含的劣化明顯化并使之恢復到正常狀態(tài)。這意味著我們應經常地對設備進行正確的檢查和預防。
4、提高人的素質
所有的處理都要由人來實施,在實現(xiàn)零故障的過程中人是最根本的。首先,每個人都要有認真的態(tài)度,兢業(yè)的精神,其次,對故障有一個正確的認識,最後就是要提高操作和維修人員的專業(yè)技能?!?br>總的來說,我們在日常工作中要做好以上這幾方面的工作:就可以防止故障的出現(xiàn)。當然這種故障也只是無限的接近零故障,或者是在某一段時間內實現(xiàn)了零故障。
摩卡業(yè)務服務管理的故障預處理
對于實現(xiàn)企業(yè)的零故障,摩卡軟件的摩卡業(yè)務服務管理(Mocha Business Service Management,簡稱Mocha BSM),在這方面有著超過十年的經驗積累,所以可以更多的從客戶方面去考慮,通過基礎模塊的監(jiān)控,周期性的反映出了設備的CPU、內存、硬盤等設備的運行情況,同時具有配置變更管理功能,當硬件設備松動或出現(xiàn)變化時,可以及時產生報警,保證了基本條件的正常運做。
通過機房的監(jiān)控,可以實時的看到設備環(huán)境的溫度、濕度、煙感度等使用條件,可以幫助管理人員提供預防因環(huán)境的原因而造成設備出現(xiàn)故障。
同時也根據(jù)對相關設備的監(jiān)控信息的設置,可以提供相關設備的定位,可以提前報警,系統(tǒng)還可以定制定時任務提醒管理人員定期定時對設備進行檢查,幫管理人員實現(xiàn)防患于未然,真正的接近零故障。


