核心網產品范圍包括從無線接入后的所有管道和話音交換等設備,網元種類多,相互之間的接口和信令交互復雜多樣。一個典型的VoLTE系統,涉及40多個邏輯網元、60多個接口,KPI數量多達30000。云化后,系統分層解耦變得更加復雜,潛在的故障點更多,需要監控的KPI數量更多,運維的難度指數級增加。從實際案例分析,一些棘手的故障問題難于用傳統手段檢測和發現,比如靜默故障,其特點是系統關鍵KPI指標無異常,事故爆發突然,不能快速定界定位,造成大面積業務受損。
沈潔表示:
華為云化核心網智能運維解決方案將機器學習與專業知識有機結合,通過全量KPI動態偏差計算與根因分析快速識別各類靜默故障,變‘事后運維’為‘事先預測’,大幅提升運維效率和網絡可靠性。”

沈潔在SDN NFV世界峰會上進行主題分享
全量KPI動態偏差計算:運用實時流數據處理技術,采集和預處理大量的KPI及metric指標,學習其內在變化規律,為每一個KPI及metric訓練出對應的動態異常檢測模型。該模型具有良好的通用性,能根據輸入KPI的特點,合理計算KPI數據在季節性、周期性、變點、節假日、重大事件等不同場景中的有效偏差,降低誤判和漏判,準確檢測出異常。
基于專家經驗系統的根因分析:在探測出異常以后,系統將基于專業領域知識與皮爾松關聯、隨機森林等機器學習算法的深度結合生成的決策樹,對多個異常KPI進行關聯分析,給出根因 KPI排序推薦,有效降低定位定界難度,實現故障快速定位。
在涉及50個IMS網元,90個EPC網元商用VOLTE網絡中對智能化運維解決方案的驗證顯示,基于全量KPI動態偏差計算與根因分析的智能運維解決方案異常檢測準確度可達85%,且90%故障可自動快速完成定界。
目前,華為云核心網在全球正式商用100多張云化網絡,多個網絡服務千萬用戶。未來,華為云核心網將持續創新,不斷深化自動化和AI技術的應用,實現核心網絡運維效率的倍增,打造“永不故障”的自治網絡。