根據ISC剛剛發(fā)布的《互聯(lián)網發(fā)展報告2019》,截至2018年底,我國網民規(guī)模達到8.29億,互聯(lián)網普及率達59.6%;我國手機網民規(guī)模達8.17億,網民中使用手機上網的比例由2017年底的97.5%提升至2018年底的98.6%。移動互聯(lián)網的高度普及為業(yè)務的數(shù)字化奠定了基礎,也為企業(yè)的業(yè)務創(chuàng)新提供了土壤。把企業(yè)的業(yè)務應用看作羊只,那它們正在這片數(shù)字沃土上生長壯大。負責看護這些羊群的牧羊人,就是今天的運維人。
正如游牧讓羊群吃到新鮮草料,企業(yè)的業(yè)務增長也伴隨著技術環(huán)境的不斷遷移。彈性擴縮、提效降費的云計算平臺,是業(yè)務應用的下一個理想牧場。要滿足激烈市場競爭帶來的業(yè)務高頻變更需求,順利應對更加多元和不可控的用戶訪問量變化,云提供了比傳統(tǒng)物理環(huán)境更理想的基礎設施。企業(yè)的發(fā)展呼喚數(shù)字化轉型,而云將成為數(shù)字化業(yè)務的技術承載,是企業(yè)必然要經歷的技術升級。
云中的達摩克利斯之劍——業(yè)務性能監(jiān)控
但在云的種種優(yōu)勢之下,有一柄高懸的達摩克利斯之劍。云架構允許業(yè)務與技術解耦,為業(yè)務頻繁迭代創(chuàng)造可能;云的高度虛擬化實現(xiàn)了業(yè)務的獨立化,支持根據訪問量自由變更所調用的計算資源。但這種靈活性讓云中性能監(jiān)控的難度大大增加,可能導致故障的環(huán)節(jié)與因素也指數(shù)級上升。一旦故障發(fā)生就如同懸劍墜落,會對企業(yè)的正常運轉造成重創(chuàng);而云的封閉性讓故障的識別與排查難度大大提高,運維人員唯一可以依賴的只有云平臺控制器提供的比較單薄的性能監(jiān)控工具,如同以只手之力與風雨相搏。
云中性能監(jiān)控的技術難點細究起來,根因在三:
1 業(yè)務上云前準備不足
羅馬不是一天建成的,企業(yè)的信息系統(tǒng)也一樣。不同批次、不同技術架構、不同供應商搭建而成的業(yè)務應用之間訪問關系錯綜復雜,未經徹底梳理就遷移上云必然導致服務路徑的疏漏與錯配,帶來業(yè)務流程的執(zhí)行障礙,問題頻發(fā)。
2 運維自動化程度不足
云中業(yè)務應用的技術底層高度虛擬化,使得運維要管理的對象從過去物理環(huán)境下的幾十、幾百變成成千上萬,已是「人肉運維」力所不逮;云平臺本身會依據業(yè)務訪問量自動對應用進行變更與遷移,如果缺乏自動化的運維手段必然導致監(jiān)控盲區(qū)出現(xiàn),故障隱患大增。
3 監(jiān)控覆蓋與精度不足
傳統(tǒng)性能監(jiān)控的技術手段皆為侵入式,需要對業(yè)務應用進行改造,在從開發(fā)到運維流暢打通敏捷迭代的云環(huán)境中無法滿足需求;監(jiān)控覆蓋不及時、監(jiān)控時間顆粒度粗,導致業(yè)務出現(xiàn)問題苗頭時無法及時發(fā)現(xiàn),雪崩效應造成業(yè)務一潰千里。
Ready,Go!在BPC保障下自由馳騁云端
天旦業(yè)務性能管理產品BPC,7年潛心技術攻關、堅持自主研發(fā)掌握知識產權、被200余家銀行、證券、保險、大型企業(yè)等領域客戶廣泛認可并深深喜愛,現(xiàn)已完成對主流云環(huán)境的技術適配,全力保障云中業(yè)務持續(xù)可用,助力企業(yè)順利完成數(shù)字化轉型。

早在2016年,天旦就已成功為金融客戶提供業(yè)務系統(tǒng)遷移上云的全過程保障,助力客戶成為國內第一家業(yè)務整體上云的金融機構,具有非常重要的意義。天旦將這次里程碑式的上云經驗進行深化研究,同時與之后持續(xù)服務客戶實現(xiàn)不同運營模式、不同技術架構的業(yè)務上云實踐進行整合,將天旦的技術與經驗以產品形態(tài)固化,為BPCgocloud在各種云環(huán)境下提供精準實時告警提供了堅實基礎。BPC也因此提供了云中性能監(jiān)控三大難點的完善解決方案,成為企業(yè)業(yè)務上云的有力保障。
1 上云前梳理業(yè)務流程,建立評估基線
基于網絡旁路的BPC性能監(jiān)控無需應用改造,可在一周內完成傳統(tǒng)環(huán)境的監(jiān)控部署,通過自動服務路徑發(fā)現(xiàn)完成對業(yè)務拓撲關系的探索,并形成秒級刷新的路徑視圖。運維團隊基于BPC提供的量化指標與系統(tǒng)架構快照建立業(yè)務性能表現(xiàn)基線,用于上云過程中的性能保障與上云后的技術成果的量化評估;擁有PMPCertified®專業(yè)項目管理認證的天旦客戶成功團隊提供完善無疏漏的上云項目管理,幫助客戶順利完成業(yè)務遷移目標,實現(xiàn)技術升級的項目規(guī)劃。
2 自動化遷移監(jiān)控部署,平滑過渡無盲點
應對成千上萬的管理對象與難以預期的頻繁應用變更,天旦開發(fā)了SDPM(SoftwareDefinedPerformanceManager,軟件定義的性能管理),實時地自定義BPCforCloud的相關服務,讓性能監(jiān)控部署跟隨應用變更實現(xiàn)自動化配置,杜絕人肉運維、大大提升運維效率。有了SDPM,BPCforCloud不僅解決了云中應用熱遷移導致的數(shù)據流量變更問題,還實現(xiàn)了自動化的云中性能監(jiān)控批量部署,使云端遷移項目實現(xiàn)「邊遷移、邊監(jiān)控」,保障了業(yè)務保障的全程覆蓋。
SDPM用于監(jiān)控OpenStack的虛機狀況,在虛機發(fā)生漂移的時候自動更改ovs流表用來保證流表的規(guī)則有效性。在SDPM的加持下,BPCforCloud實現(xiàn)了實時監(jiān)測數(shù)據源的變化(如虛擬機的創(chuàng)建、終止和遷移),并自動根據變更來調整數(shù)據源鏡像;通過API與客戶的云平臺管理器集成,對服務路徑圖進行實時創(chuàng)建、刪除和修改,并自動調整設置系統(tǒng)告警。
3 高精度高實時的云中性能監(jiān)控
BPC基于網絡旁路的實時鏡像,全量捕獲的網絡流量在自主研發(fā)的報文協(xié)議解碼引擎中同步解碼,獲取每一筆交易的狀態(tài)參數(shù)與明細數(shù)據,并將其整合為格式統(tǒng)一、對機器與人都可讀的互聯(lián)數(shù)據。旁路方式不增加業(yè)務系統(tǒng)負載,可以提供分鐘級、秒級、毫秒級等不同級別的實時性能指標;互聯(lián)數(shù)據則將應用性能表現(xiàn)與業(yè)務實際狀況建立關聯(lián),提供逐筆交易的過程記錄追溯與明細查詢。
在完成對各類云環(huán)境的技術適配之后,BPC的各種深受用戶喜愛的功能將繼續(xù)在云環(huán)境下發(fā)揮強大功能:云圖智能告警提供場景化的告警配置與多維度、多指標關聯(lián)的精準告警;智能算法驅動的一鍵故障解析功能提供對故障發(fā)生節(jié)點的逐層、逐維度鉆取,準確定位故障發(fā)生域。在業(yè)務頻繁變動的云環(huán)境下,BPC的高精度、高實時監(jiān)控能力將幫助運維部門快速適應云的新工作方式,讓云環(huán)境的業(yè)務運維如傳統(tǒng)環(huán)境一樣自主可控。
全平臺制霸!BPC「看透」每一朵云
企業(yè)的業(yè)務側重不同,信息化建設程度不同,對計算資源的需求不同,導致在云平臺的建設與技術選項上千差萬別。應對截然不同的云環(huán)境技術架構,BPC提供了多項模型、多種方式、多個層級的技術解決方案,可以順利穿透云的封閉結構捕獲到流量數(shù)據,滿足企業(yè)所選擇的任何云架構下的業(yè)務性能監(jiān)控。

除了技術上主動適配,天旦還與各云平臺技術廠商建立深入的合作關系,共同測試BPC的監(jiān)控方案在不同版本、不同模型下的兼容性與采集效率,保證BPC提供完善、穩(wěn)定、可靠的監(jiān)控保障;并且通過API與云平臺控制器自動打通,以告警事件自動調用故障處理流程,極大縮短MTTR(平均故障處理時間),成為運維人完成云中業(yè)務保障的得力助手。
持續(xù)進化的BPC,為云的下一次技術變革做好儲備
云計算雖然還是新興技術,但以容器和邊緣計算為代表的下一代虛擬化技術正嶄露頭角。技術嗅覺敏銳的天旦早已開始進行技術準備。以容器集群為例,天旦開創(chuàng)性地利用Sidecar編程模型實現(xiàn)對容器化應用的流量捕獲,使容器集群上的業(yè)務性能監(jiān)控成為可能。雖然更多企業(yè)仍然處于規(guī)劃云計算的階段,但天旦對于未來技術的應對必須趕早超前,這樣才能像云中性能監(jiān)控一樣,在企業(yè)進行部署時就可提供技術完善、產品成熟的解決方案。
天旦還將對云環(huán)境的技術理解、業(yè)務遷移上云的方法論與實踐經驗歸納濃縮成《云時代性能管理白皮書》。如果你正想要上云,或者你也正對云中性能監(jiān)控有所困惑,歡迎掃碼領取這份精華白皮書:


