隨著全球業(yè)務(wù)及3G時代的到來,電信運營商之間的競爭愈加激烈,運營商的角色也從簡單的話音業(yè)務(wù)經(jīng)營者擴展到包括數(shù)據(jù)、內(nèi)容等的綜合服務(wù)提供商。業(yè)務(wù)的不斷創(chuàng)新對業(yè)務(wù)支撐提出了更高的要求,運營工作作為業(yè)務(wù)支撐的重要環(huán)節(jié)來到了改變的十字路口。
浙江省作為全國的經(jīng)濟大省,移動用戶數(shù)量已突破4000萬,網(wǎng)絡(luò)規(guī)模和客戶總數(shù)連續(xù)八年位居全國第二位,形成了全球通、神州行、金卡神州行等品牌系列。為了在競爭中保持領(lǐng)先地位,同時不斷擴展業(yè)務(wù),中國移動浙江公司(以下簡稱浙江移動)的IT系統(tǒng)運維承受著巨大的壓力。“千里之堤,潰于蚊穴”,任何一個小問題都可能降低客戶體驗,進而造成客戶流失。曾經(jīng)的情況是,IT故障造成業(yè)務(wù)問題往往在客戶投訴之后才發(fā)現(xiàn)是IT的問題,IT處于非常被動的位置。IT部門在救火時,往往需要很長時間才能確定故障和問題來自哪里。從2002年開始,中國移動業(yè)務(wù)支撐系統(tǒng)(BOSS)全面實施以省為單位的集中化建設(shè),各省BOSS系統(tǒng)規(guī)模和能力不斷擴大,BOSS系統(tǒng)已成為一個通信運營商的核心競爭力之一。傳統(tǒng)的BOSS監(jiān)控僅能簡單的收集主機、數(shù)據(jù)庫的參數(shù)狀態(tài),沒有一種好的BOSS系統(tǒng)運營評價機制;沒有能力提前“預(yù)知”故障的發(fā)生,未能從業(yè)務(wù)應(yīng)用的整體有機的進行監(jiān)控和管理,導(dǎo)致整個IT運維團隊成了消防隊,疲于被動應(yīng)付各種突發(fā)事件,客戶體驗難以從根本上得以改善。
因此,浙江移動迫切需要一個主動解決以上問題的方法,主動發(fā)現(xiàn)問題,判斷故障源,并第一時間解決問題。如同名醫(yī)扁鵲看病一樣,防病勝于治病,在疾病尚處于潛伏期或初發(fā)的時候就予以根治。
惠普軟件解決方案:主動出擊,全面監(jiān)控
通過對上述問題的分析以及與浙江移動的深入溝通,惠普的專家認(rèn)為,要解決浙江移動面臨的業(yè)務(wù)挑戰(zhàn),必須對業(yè)務(wù)系統(tǒng)等進行主動監(jiān)控管理,優(yōu)化關(guān)鍵業(yè)務(wù)服務(wù)的可用性和性能,在問題發(fā)生之前及時應(yīng)對問題并解決問題。同時通過對業(yè)務(wù)應(yīng)用的監(jiān)控,了解最終用戶的應(yīng)用體驗,及時采取有效的措施,從而提升用戶的滿意度。
惠普的業(yè)務(wù)可用性中心提供了全面業(yè)務(wù)服務(wù)管理:包括端到端應(yīng)用響應(yīng)時間測量、SLA (服務(wù)水平協(xié)議)監(jiān)控和報告、基礎(chǔ)架構(gòu)事件管理、IT 服務(wù)依賴性視圖等。尤其值得一提的是惠普終端用戶監(jiān)控器(HP End User Monitor),這是業(yè)界首屈一指的監(jiān)控工具,它可以主動監(jiān)控最終用戶的應(yīng)用體驗。例如可以逐屏重放問題發(fā)生時用戶的每次行為,包括用戶看到的任何錯誤信息。這有助于應(yīng)用專家利用Web 界面,快速鎖定問題,幫助解決問題。
惠普從業(yè)務(wù)感知角度出發(fā),以業(yè)務(wù)拓?fù)淠P蜑楹诵模罁?jù)業(yè)務(wù)建模、數(shù)據(jù)聚集、告警管控和界面展示四個層次來實現(xiàn)IT運營管理,從而讓浙江移動的業(yè)務(wù)、應(yīng)用、各類平臺資源等IT運營管理要素全部覆蓋于BAC系統(tǒng)。這樣,浙江移動通過惠普的終端用戶監(jiān)控器監(jiān)控網(wǎng)上營業(yè)廳、BOSS等系統(tǒng),結(jié)果是不僅得到了綜合業(yè)務(wù)視圖,同時還可以得到關(guān)鍵性能指標(biāo)(KPI)的趨勢分析、歷史數(shù)據(jù)展現(xiàn)、圖表等,分析出具有代表性的客戶行為報告,實現(xiàn)了對業(yè)務(wù)的全面監(jiān)控,當(dāng)然,最重要的是大大提升了客戶體驗。
客戶體驗:問題消弭于無形
惠普軟件業(yè)務(wù)可用性中心給浙江移動帶來的價值是多方面的,具體而言集中在以下幾個方面:
解決業(yè)務(wù)監(jiān)控盲點,對業(yè)務(wù)“軟故障”——漸進式的業(yè)務(wù)故障提升趨勢預(yù)警能力,做到及時發(fā)現(xiàn)、盡早解決,降低對業(yè)務(wù)的影響。比如,某日從0:30分開始,前臺充值卡、現(xiàn)金和505充值的業(yè)務(wù)探針出現(xiàn)多次超時,時長達(dá)35秒(正常應(yīng)小于1秒),平臺生成趨勢預(yù)警。值班人員據(jù)此檢查這幾個業(yè)務(wù)共用的充值數(shù)據(jù)庫的性能,發(fā)現(xiàn)某個定時任務(wù)出現(xiàn)了掛起,并不斷消耗數(shù)據(jù)庫性能。經(jīng)過緊急處理于凌晨3點50分排除故障隱患,避免了充值業(yè)務(wù)中斷。這一例子充分證明了,趨勢預(yù)警為提前發(fā)現(xiàn)業(yè)務(wù)故障隱患提供了可能,能有效減少甚至避免部分的業(yè)務(wù)中斷。
快速定位故障環(huán)節(jié),顯著縮短故障處理時長。平臺運行以來,故障平均處理時長縮短18%。比如,營業(yè)員投訴積分商城訪問慢且易失敗,通過業(yè)務(wù)探針的耗時細(xì)分,發(fā)現(xiàn)在非工作時間業(yè)務(wù)快且穩(wěn)定,而工作時間的網(wǎng)絡(luò)建立連接時間很長,隨后深入分析網(wǎng)絡(luò)連接時長并結(jié)合外網(wǎng)業(yè)務(wù)探針,定位故障根源是內(nèi)網(wǎng)代理服務(wù)器在工作時間內(nèi)帶寬不足。
業(yè)務(wù)全景展示分析,自動生成分析報告,切實提升運維管理效率。浙江移動IT運營管理平臺還包括了一個基于BAC產(chǎn)品之上的門戶,并且這個門戶被投射到了監(jiān)控室的超大屏幕上。通過這個門戶,IT管理人員能從直觀的儀表盤上看到業(yè)務(wù)可用性、健康度以及幾個最關(guān)鍵指標(biāo)的實時信息;監(jiān)控人員能夠通過儀表盤以及業(yè)務(wù)全景視圖功能清晰看出不同的業(yè)務(wù)是如何被IT資源支撐起來的,而且通過一個統(tǒng)一的視圖能一次看到以往需要在很多個系統(tǒng)中才能看全的信息,其中甚至包含一些IT運營管理平臺創(chuàng)新提供的指標(biāo)信息,如業(yè)務(wù)處理時長等。
通過惠普BAC解決方案的實施,浙江移動的IT部門開始主動監(jiān)管系統(tǒng)的運營狀態(tài),不再被動忙于救火、潛在問題往往在萌芽狀態(tài)就被消除,客戶滿意度大幅提升,從而為浙江移動的業(yè)務(wù)發(fā)展和品牌美譽度的提升,提供了強有力的支持。
項目試運行以來,月均成功預(yù)警業(yè)務(wù)問題29次,預(yù)警有效率和覆蓋率均達(dá)到96%以上,預(yù)警時間點比傳統(tǒng)模式告警和客服報障平均提前42分鐘,方便維護人員提前介入,避免了故障的發(fā)生,每月減少BOSS核心系統(tǒng)故障11分鐘。通過業(yè)務(wù)故障快速定位,使業(yè)務(wù)故障處理時長平均縮短了42%。充分實現(xiàn)了提前預(yù)警避免故障為主,故障發(fā)生后快速定位修復(fù)為輔的項目目標(biāo)。
對此,浙江移動負(fù)責(zé)BAM建設(shè)的項目經(jīng)理唐濤表示:“在惠普的幫助下,我們建立了IT運營管理平臺。通過運行報告和數(shù)據(jù),我們發(fā)現(xiàn)平臺提供了有效的業(yè)務(wù)預(yù)警和告警,能夠幫助運維人員快速發(fā)現(xiàn)并定位故障,并能夠面向各類人員提供不同的分析展示界面,這都使員工效率和客戶滿意度得到了提升。”
憑借此項目,浙江移動轉(zhuǎn)變了業(yè)務(wù)支撐部門運維員工的思路,從基礎(chǔ)平臺架構(gòu)的監(jiān)控向業(yè)務(wù)運營管理轉(zhuǎn)變,提示了員工對于業(yè)務(wù)的了解程度,拓展了業(yè)務(wù)支撐部門員工的發(fā)展規(guī)劃道路,并且該平臺通過自動化監(jiān)控、準(zhǔn)確故障定位診斷功能,能夠有效減輕員工工作量,避免了監(jiān)控運維人員陷入疲于奔命,忙于救火,增加了員工的滿意度。
浙江公司在BOSS業(yè)務(wù)監(jiān)控上的研究與實踐為中國電信運營商的業(yè)務(wù)支撐系統(tǒng)維護做了積極有益的探索,因此在2009年也獲得了中國移動通信集團授予的科技創(chuàng)新優(yōu)秀獎。