簡介:隨著企業業務規模擴大和復雜化及雲計算、大數據等技術的不斷發展,大量傳統企業希望用上雲來加速其數字化轉型,以獲得虛擬化、軟件化、服務化、平台化的紅利。在這個過程中,因為軟件資産規模持續增大而導緻的軟件開發運維和IT基礎設施建設運營壓力,也將無法繼續采用綫性增加的方式來解決,且在DevOps思想的影響與引導下,企業對於改善傳統IT運維職責權邊界不清晰,操作過程無序、提升運維效率及業務穩定性方麵也有著迫切的需求。企業必須加快整個IT架構的轉型,在基礎設施上雲後推動應用往雲上遷移,充分利用好購買的雲基礎設施。
隨著企業業務規模擴大和復雜化及雲計算、大數據等技術的不斷發展,大量傳統企業希望用上雲來加速其數字化轉型,以獲得虛擬化、軟件化、服務化、平台化的紅利。在這個過程中,因為軟件資産規模持續增大而導緻的軟件開發運維和IT基礎設施建設運營壓力,也將無法繼續采用綫性增加的方式來解決,且在DevOps思想的影響與引導下,企業對於改善傳統IT運維職責權邊界不清晰,操作過程無序、提升運維效率及業務穩定性方麵也有著迫切的需求。企業必須加快整個IT架構的轉型,在基礎設施上雲後推動應用往雲上遷移,充分利用好購買的雲基礎設施。
企業上雲挑戰
通常企業在基礎設施上雲後,主要麵臨如下4個方麵挑戰。
第一,企業IT架構不統一,技術棧多,統一運維比較難實現。通常來說企業經過多年的發展,都存在大量功能高度重閤,但是獨立運行的應用。這些應用有的是自研,有的是ISV開發,甚至很多是定嚮采購,這些應用架構不同,語言不同,甚至運行環境也不同,同時為瞭這些應用的穩定運行,催生瞭大量的運維工具和係統,所以當企業的基礎設施上雲後,對這些應用統一進行運維成本極高,也是運維標準化、自動化的障礙。
第二,企業正處於深化數字化轉型階段,對雲不瞭解,對雲上運維更不瞭解。企業數據中心麵臨轉型,但是缺少統一的體係化設計和建設,應用係統不知道怎麼上雲、運維人員不知道雲化後的定位,一切都在摸索中前進。我們在和客戶的交流中就會經常被問,你們在公司怎麼做運維的,幫我們列下你們工作的具體操作,甚至問你們的KPI是怎麼定的。
第三,基礎設施上雲後,在提升産研效率的同時對運維的SLA提齣瞭更高的要求,應用係統的日益復雜、生産迭代的加快,對於應用運維係統來說,需要更智能的識彆攔截風險,發生故障時更快的響應與快速恢復,保持業務的持續性運行。
第四,未來大型企業必定會存在多朵雲,不同技術棧的雲如何管理及運維,存在睏難或者說還沒有比較好的解決方案。
阿裏運維的變化與發展
我們看到當前企業所麵對的挑戰,阿裏集團在全麵上雲的過程中也同樣遇到瞭,基於以上的背景及挑戰,我們可以得齣:基礎設施上雲後,企業的3大剛需分彆是業務遷雲、雲上自動化運維、多朵雲的混閤雲運維。那麼我們建設瞭麵嚮混閤雲場景的統一運維平台,幫助企業以應用為視角實現更易上雲、更好用雲,實現構建多雲架構下成熟應用的統一建模、架構藍圖可視化交互驅動、集中式&場景化運維,以麵對這些挑戰。接下來講一下,我們是如何一步步演進、升級至混閤雲新一代運維平台。
阿裏巴巴的運維體係經曆瞭腳本時代、工具時代和DevOps時代,目前正在實現自動化運維並探索智能化運維階段。在2008-2009年,阿裏巴巴的運維還處於腳本時代,大量的運維工作需要通過腳本來實現,隨著業務規模擴大和復雜度提高,腳本的方式越來越難以維護,因此阿裏巴巴開始引入運維工具;在運維工具時代,阿裏巴巴的運維體係經曆瞭從工具團隊和運維團隊並行的階段,到瞭為更好保障工具質量統一的工具團隊階段;再到逐漸有 DevOps 理念和職能的偏軟件的工具團隊階段;最後,阿裏巴巴應用運維團隊迎來瞭一場大變革,以前的應用運維團隊全被打散,被閤並到各業務軟件開發團隊中,全麵踐行 DevOps 理念。
進入 DevOps 階段後,成熟的流程化運維工具雖然提升瞭一部分運維效率,但是各個工具之間實際是獨立割裂的,例如監控工具和運維工具是割裂的、巡檢工具和快恢工具也是割裂的,這導緻日常應用持續運維過程中,從監控發現、定位並快速恢復問題的鏈路很長且效率低下,對運維開發來說,期望業務應用上綫後可以“No Ops”,監控及運維係統能自行發現異常並自動解決,把應用及業務帶迴正常狀態,阿裏巴巴應用運維開始瞭“監管控一體化”的體係建設,走上瞭通過智能化手段提升運維效率、運維安全,從而保障業務連續性穩定。
大傢都知道,阿裏巴巴不但擁有眾多形態各異的業務,而且體量大,特彆是每年天貓雙11大促,需要超大規模的 IAAS 資源支撐。2015年之前,阿裏巴巴每年都要花費巨額費用來購買服務器,建設一代又一代的 IDC 數據中心;2015年至2019年,阿裏巴巴走嚮全麵雲化的過程,在這個時期,阿裏巴巴基礎設施一部分在雲下數據中心,另一部分在阿裏雲上的數據中心,還需要支持同城多活到異地多活,所以必須要有強大的雲上雲下一體化超大規模資源管理的能力;2019年阿裏巴巴實現全麵雲化之後,又開始麵對一個新的超大規模資源管理場景“混閤雲”管理。
混閤雲場景下的運維實踐
上麵我們提到瞭很多次“應用運維”,我們先來說一下什麼是應用運維,講這個之前我們先普及一下什麼是“應用”,應用是指提供一組相同服務(Service)的資源集,可以對多個地域、多種資源進行全生命周期的角色、權限的統一管理,並擁有自己的代碼介質如WAR、JAR、鏡像, 那麼應用運維即是對一組相同服務(Service)的資源集的生命周期進行運維。
那麼我們所講的應用運維平台正是處於SaaS層與PaaS層中間,與APaaS的概念有點相似,主要負責麵嚮用戶的業務/應用的運維工作。因此應用運維嚮上可以觸達業務包括流量、GMV、營收,嚮下可以觸達平台和係統包括資源與硬件,應用天然和人強耦閤,因此也可以關聯賬號和權限等虛擬資源,我們通過應用很容易可以構建業務運行的各種藍圖拓撲關係,通過對應用生命周期全封閉管理,我們可以高效,準確的管理好應用依賴的各種資源,應用運維也提供呈上啓下的作用,從業務研發到應用運維再到基礎設施運維的分層工作流,即為雲+應用一體化運維方案,基於應用三態模型建設,自上而下提供應用等級、部署架構到藍圖規劃的一整套解決方案,實現從用戶對應用全生命周期的管理、研運一體精細化運營到一站式運維。
至此,混閤雲應用運維平台誕生,通過阿裏集團內部多年的經驗沉澱演進,支撐瞭阿裏集團的業務容器化、雲化的重要架構演進。平台也是以ITIL理念為指導,提供雲上的統一配置管理,為業務運維變更,一體化運維監控提供統一的數據,內置的安全策略以及核心資産保護,為業務變更的安全可靠提供穩定支撐,通過大數據以及算法平台,分析應用的指標、變更、日誌等數據,為應用刻畫智能基綫和畫像,通過與監控的統一事件中心聯動、與應用運維自動化變更流程結閤,實現基於指標和事件的異常快恢。
平台核心能力介紹
上麵我們講到企業上雲後的挑戰,這些挑戰在阿裏走嚮全麵雲化的過程中也都一一碰到,應用運維平台的演進誕生也分瞭幾個主要核心能力的演進,下麵我們講講這些核心能力是如何支撐業務上雲的。
統一CMDB
首先我們統一瞭CMDB,CMDB 做為基礎服務,為企業提供從團隊協作、企業主數據、IT資産管理、監控等核心模塊的數據交換能力,業界的解決方案也非常多,但是我們調研瞭業界內很多相關的産品,發現現有的CMDB都比較偏傳統,麵嚮應用管理的CMDB比較少。
所以我們構建瞭以應用為中心應用模型,滿足混閤雲運維的各種需求,比如異構雲元數據的統一納管,通過自動化資源生命周期管理而不是腳本采集來保證數據的準確性。因此混閤雲CMDB要求擁有靈活的建模以及查詢能力,要求有能力在大流量高並發的情況下,提供實時、準確數據操作能力,提供靈活可自定義和拓撲結構圖形化展示能力,可自定義規範、約束狀態變化等能力,並支持深度的拓撲查詢能力,也提供高可用的API服務,支持被集成。我們當前混閤雲的CMDB,經過曆年雙十一的沉澱與客戶場景的不斷打磨成型,並采用以業務變更驅動配置數據變更的方式而不是主動采集更新的方式,更好的保障瞭數據的是實時性和權威性,形成瞭産品能力上的差異化競爭。
混閤雲資源管理
接下來我再介紹下,雲上運維必不可少的應用混閤雲資源納管。既然我們是麵嚮混閤雲的管理平台,勢必需要無縫對接公有雲、專有雲 IaaS 資源,並且可以接管用戶自建 IDC 等異構雲的資源。支持 IaaS 資源全生命周期管理的同時並支持混閤雲資源的自動化編排,計量計費,成本分析與控製,在降低企業資源使用成本的同時,滿足業務快速交付的需求。
區彆雲平台資源納管,以應用的視角管理應用的架構和資源,並提供一鍵式的資源交付能力,可以讓不同的角色分工協作,例如平台規劃人員提前規劃好運行環境和網絡,應用的架構角色可以定義應用係統的架構,平台自動創建應用係統以及應用服務的配置數據,然後應用的研發運維人員以業務的視角基於應用的部署架構,進行資源的規劃,在資源編排時,業務隻需關心應用運行在哪個環境中,對應用的研發運維角色屏蔽瞭地域、vpc等網絡相關的配置信息,讓業務人員更多的關注在資源配置上,平台自動進行資源申請交付,並主動維護資源和係統之間的管理關係,自動落入統一的CMDB中,這也就是前麵講到的,混閤雲平台的CMDB的數據的維護都是通過變更驅動的。
可視化編排
在應用運維領域,大部分的做法都是基於工作流以及工單管理來實現對應的運維變更操作,而傳統的運維工作流在維護成本及可擴展性上都存在一定的不足,缺乏有效的流程生命周期管理手段。
例如應用申請雲資源的場景,大多是一種復閤操作,可能會涉及多個雲資源間的依賴關係,比如申請一個ECS的同時需要掛載SLB,同時掛載數據盤以及OSS纔能滿足業務需求,如果不是通過可視化編排,那麼平台的易用性和復雜性會成倍增加。那麼用戶(PaaS服務以及開發、運維、運營等角色)可以根據實際業務需要,對多個原子組件通過簡單可視的編排的方式進行靈活裝配,構造齣不同的業務流程完成一個完整的運維需求,運維編排也可以幫助我們更好地規範、管理和執行自動化運維操作,以模闆的方式定義所需要進行的操作,然後再通過係統運行,從而提高整體運維操作的效率、增強運維操作的安全性,並避免人工運維的錯誤。
自動化智能化運維
當平台具備瞭基本能力以後,也就需要在其他領域進行突破。我們通過在阿裏集團以及客戶側的大量實踐,沉澱齣基於應用的智能運維框架,輕量化的架構可以完成數據采集收集,算法快速開發調優,與專業的算法團隊深入閤作,快速構建起智能運維領域的相關能力,比如:彈性伸縮,智能告警,智能巡檢、無人值守發布等場景,對競品形成瞭技術上的優勢。
並且根據一些調研的數據顯示,企業中70%以上的故障都是由於變更引起的,在企業應用敏捷迭代的場景下,如何體係化、自動化、智能化的保障變更安全是所有企業核心訴求。很多企業在進行生産變更時會要求雙人復核,一定程度上對變更前的一些事項進行檢查,降低變更風險,這就對人員的技能要求很高,而且經驗不易復製,也一定程度上降低瞭效能。
混閤雲應用維平台通過係統工程化的解決方案,根據阿裏的各種業務場景,提煉瞭變更的風險策略,與運維平台變更流程進行瞭有效結閤,實現變更前風險監測,對於識彆到的風險,會進行變更攔截,進行流程加簽審批,保障運維流程的安全;變更執行中,平台會實時對業務運行態指標進行監測,與應用畫像進行比對,當變更時應用指標/業務指標發生大幅度抖動時,平台會自動進行變更攔截,及時控製影響範圍。
未來的運維趨勢
以上我們分析瞭阿裏運維平台上雲後演進過程,同時分享瞭平台的幾個核心能力,下麵我們聊一下未來運維發展趨勢是如何的。
如果說運維1.0時代,是以黑屏運維模式、主機運維技術特點,提升 IT運維工作(人員)自身的效率,運維2.0時代是白屏運維模式、容器化運維技術特點,提升IT係統的效率性、降低運維成本,那麼運維3.0必將是數字化時代的運維模式,這種運維模式重要的特性就是以保障業務穩定、高效為目標,提供雲+應用一體化運維模式、業務可靠性的係統工程技術能力,從各個維度係統化保障業務的穩定。
在最新的十四五規劃中,國傢明確提齣將加速推進傳統企業的數字化轉型,同時也明確提齣,相關科技領域,電力,金融,交通等這些基礎設施級彆的民生企業要保證安全可靠。事實上在十三五期間,已經有越來越多的這類傳統企業依賴雲試水數字化數轉型,而保障已經數字化轉型成功的企業安全穩定運行在雲上,必將是核心競爭力。
在數字化變革的浪潮中,中國作為産業規模最大和門類最齊全的經濟體,迎來百年未有的崛起機會,擁抱數字基礎設施,探索符閤數字化時代要求的技術和管理範式,將幫助我們切實把握機會,而把握這一機會的組織,將在數字化變革的浪潮中脫穎而齣。
未來我們也會和企業共同成長,提供企業用戶金融級彆高可用和連續性要求的應用所需各類服務,滿足金融等業務場景下多活和容災的業務需求,促進企業業務的敏態和穩態發展,切切實實幫助上雲的企業客戶,建立以雲+應用為中心的企業數字化業務運營管理解決方案。
混閤雲新一代運維平台,幫助企業數字化運營可體現、管理可決策、治理可執行,讓企業在敢用雲的同時用好雲。
本文為阿裏雲原創內容,未經允許不得轉載。
責任編輯: