企業(yè)IT系統(tǒng)越來(lái)越多,網(wǎng)絡(luò)、設(shè)備和產(chǎn)品越來(lái)越復(fù)雜,業(yè)務(wù)越來(lái)越依賴于穩(wěn)定可靠的系統(tǒng)運(yùn)行,公司內(nèi)部和外部用戶對(duì)IT部門的支持服務(wù)和協(xié)調(diào)管理也提出了更高的要求,如果企業(yè)的運(yùn)行設(shè)備出現(xiàn)了故障,往往會(huì)給企業(yè)帶來(lái)巨大的損失。此時(shí),往往企業(yè)會(huì)要求運(yùn)維部門力保設(shè)備的運(yùn)行正常,同樣運(yùn)維部門也會(huì)提出相關(guān)的口號(hào),例如,連續(xù)100天運(yùn)維無(wú)故障。也就是我們常說(shuō)的零故障。
IT部門如果缺乏快速有效的協(xié)調(diào)機(jī)制和必要的輔助管理工具,就會(huì)出現(xiàn)“救火隊(duì)式”的混亂局面,其主要表現(xiàn)如下:
被動(dòng)響應(yīng)式的工作方式。
很難及時(shí)發(fā)現(xiàn)和預(yù)見問(wèn)題的發(fā)生。
問(wèn)題出現(xiàn)后,很難快速、準(zhǔn)確地找到根本原因,并及時(shí)地找到相應(yīng)的人進(jìn)行修復(fù)和處理。
問(wèn)題找到后,缺乏流程化的故障處理機(jī)制。
支持過(guò)程總是被打斷和干擾。
關(guān)鍵人員的工作負(fù)載過(guò)重。
缺乏過(guò)程和變化的跟蹤記錄。
IT支持部門面臨不斷改進(jìn)服務(wù)和降低成本的壓力。
服務(wù)請(qǐng)求的響應(yīng)時(shí)間和質(zhì)量無(wú)法衡量。
決策基于“我認(rèn)為”而不是“我知道”。
結(jié)果造成IT部門整天疲于奔命,無(wú)法滿足服務(wù)時(shí)效性和穩(wěn)定性的需求。這種工作模式下的IT資源管理,不僅IT部門吃力不討好,而且也無(wú)法發(fā)揮IT系統(tǒng)的整體性能和功能,同樣也無(wú)法達(dá)到企業(yè)提出的零故障的要求。
什么是零故障
對(duì)故障我們已作定義就是設(shè)備失去了規(guī)定的功能,再?gòu)墓收系淖置婵矗怯扇恕肮省币舛鸬摹罢稀钡K,即故障的根源在人,它是由於人的思維方法和行動(dòng)上的錯(cuò)誤而引起的,也就是說(shuō)人們的認(rèn)識(shí)及其相應(yīng)的行為的結(jié)果以故障的形式表現(xiàn)出來(lái)。因此只要改變與設(shè)備相關(guān)的所有人的認(rèn)識(shí),增加相應(yīng)的知識(shí),提高其技能,改進(jìn)其方法和行動(dòng),故障就會(huì)消失。
有人可能要問(wèn),按照零故障觀點(diǎn),設(shè)備豈不可以永久地使用下去了嗎,這里我們要區(qū)分兩個(gè)不同的概念就是自然老化和強(qiáng)制惡化。所謂自然老化就是雖然 使用方法正確,但隨著時(shí)間的推移,設(shè)備發(fā)生了性能逐漸下降。而所謂的強(qiáng)制惡化是指未按應(yīng)有的方法作業(yè),人為地促使了惡化。因此零故障觀點(diǎn)的意義在於指導(dǎo)我們正確認(rèn)識(shí)故障,做該做的事以避免強(qiáng)制惡化,延緩自然老化。
為了實(shí)際推進(jìn)這項(xiàng)工作,我們針對(duì)可能產(chǎn)生故障的原因,導(dǎo)出實(shí)現(xiàn)零故障的四大對(duì)策:
1、具備基本條件
所謂具備基本條件,就是指CPU、內(nèi)存、硬盤等硬件設(shè)備。故障是由設(shè)備的劣化引起的,但大多數(shù)故障是由於基本條件3要素引起的。
2、嚴(yán)守使用條件
機(jī)器設(shè)備在設(shè)計(jì)時(shí)就確定了使用條件。嚴(yán)格按照使用條件使用,設(shè)備就很少產(chǎn)生故障。比如電壓、轉(zhuǎn)速、溫度及安裝條件等,都是根據(jù)設(shè)備的特點(diǎn)而決定的。
3、使設(shè)備恢復(fù)正?!?br>
一臺(tái)設(shè)備,即使具備了基本條件,保證使用條件,由於很難做到十全十美,因此設(shè)備還是會(huì)發(fā)生劣化,產(chǎn)生故障。所以使隱含的劣化明顯化并使之恢復(fù)到正常狀態(tài)。這意味著我們應(yīng)經(jīng)常地對(duì)設(shè)備進(jìn)行正確的檢查和預(yù)防。
4、提高人的素質(zhì)
所有的處理都要由人來(lái)實(shí)施,在實(shí)現(xiàn)零故障的過(guò)程中人是最根本的。首先,每個(gè)人都要有認(rèn)真的態(tài)度,兢業(yè)的精神,其次,對(duì)故障有一個(gè)正確的認(rèn)識(shí),最後就是要提高操作和維修人員的專業(yè)技能?!?br>總的來(lái)說(shuō),我們?cè)谌粘9ぷ髦幸龊靡陨线@幾方面的工作:就可以防止故障的出現(xiàn)。當(dāng)然這種故障也只是無(wú)限的接近零故障,或者是在某一段時(shí)間內(nèi)實(shí)現(xiàn)了零故障。
摩卡業(yè)務(wù)服務(wù)管理的故障預(yù)處理
對(duì)于實(shí)現(xiàn)企業(yè)的零故障,摩卡軟件的摩卡業(yè)務(wù)服務(wù)管理(Mocha Business Service Management,簡(jiǎn)稱Mocha BSM),在這方面有著超過(guò)十年的經(jīng)驗(yàn)積累,所以可以更多的從客戶方面去考慮,通過(guò)基礎(chǔ)模塊的監(jiān)控,周期性的反映出了設(shè)備的CPU、內(nèi)存、硬盤等設(shè)備的運(yùn)行情況,同時(shí)具有配置變更管理功能,當(dāng)硬件設(shè)備松動(dòng)或出現(xiàn)變化時(shí),可以及時(shí)產(chǎn)生報(bào)警,保證了基本條件的正常運(yùn)做。
通過(guò)機(jī)房的監(jiān)控,可以實(shí)時(shí)的看到設(shè)備環(huán)境的溫度、濕度、煙感度等使用條件,可以幫助管理人員提供預(yù)防因環(huán)境的原因而造成設(shè)備出現(xiàn)故障。
同時(shí)也根據(jù)對(duì)相關(guān)設(shè)備的監(jiān)控信息的設(shè)置,可以提供相關(guān)設(shè)備的定位,可以提前報(bào)警,系統(tǒng)還可以定制定時(shí)任務(wù)提醒管理人員定期定時(shí)對(duì)設(shè)備進(jìn)行檢查,幫管理人員實(shí)現(xiàn)防患于未然,真正的接近零故障。


