波多野结衣按摩,在线观看亚洲视频,国产嫩草在线观看,91视频最新地址

首頁 資訊 > 資訊 > 正文

火山引擎云平臺前端穩定性建設實踐

近日,在??WOT全球技術創新大會2023“大前端最佳實踐”??分論壇上,火山引擎云平臺前端負責人蔣雷分享了主題為“火山引擎云平臺前端穩定性建設實踐”的演講。此次分享以火山引擎云平臺為例,從業務端切入,通過介紹前端穩定性對云平臺的重要性,探討了前端穩定性建設的目標、整體思路、建設流程及評價體系,分享了前端穩定性建設過程中面臨的挑戰和難點,以及利用新技術和工具來提高前端穩定性的方法。


(資料圖)

近日,在WOT全球技術創新大會2023“大前端最佳實踐”分論壇上,火山引擎云平臺前端負責人蔣雷分享了主題為“火山引擎云平臺前端穩定性建設實踐”的演講。

此次分享以火山引擎云平臺為例,從業務端切入,通過介紹前端穩定性對云平臺的重要性,探討了前端穩定性建設的目標、整體思路、建設流程及評價體系,分享了前端穩定性建設過程中面臨的挑戰和難點,以及利用新技術和工具來提高前端穩定性的方法。

火山引擎是字節跳動旗下的云服務平臺。云平臺是一個多邊平臺,可以為多個不同角色用戶提供服務,它不僅為客戶服務,還為包括財務、稅務、法務的火山引擎內部運營,以及外部生態合作伙伴服務。因此,對于云計算平臺而言,穩定性建設至關重要。蔣雷表示,在云計算業務中,官網和控制臺距離客戶最近,用戶與云平臺和云產品控制臺的交互幾乎都發生在前端,前端穩定性對于整個云平臺的可用性和客戶體驗至關重要。

一、火山引擎云平臺穩定性建設的整體思路

火山引擎云平臺業務的穩定性建設就像下一盤棋,而行棋的最高原則就是火山引擎整體的穩定性建設。其中,云平臺的穩定性作為火山引擎整體穩定性范疇的關鍵部分也不可小覷。

由于云平臺業務多邊性的特點,云平臺穩定性建設的第一要義便是保證云產品服務的穩定性,提升MTBF(平均無故障運行時間),降低MTTR(平均故障修復時間),保證云業務安全、可靠、高效地運行。

云平臺行業SRE實踐可以細分為Pre-MTBF、MTTI(發生故障到故障被識別的平均時間)、MTTK(發生故障到了解故障根因的平均時間)、MTTF(故障出現后的平均解決時間)、MTTV(故障修復完成后重新驗證系統正常運行所需的平均時間)、Post-MTBF等環節,為了保證云平臺運行的穩定性,火山引擎云平臺前端團隊采用了以下措施進行維護:

在事故發生前,通過故障演練、容量評估、自動化測試等方式,進行故障預防;當事故發生后,利用監控告警、客戶反饋、輿情感知等工具發現故障,通過日志分析、鏈路跟蹤、根因定位等方式進行故障定位,再采取容災切換、服務降級、服務限流、異常熔斷等措施進行故障恢復;當然,故障恢復之后,故障復盤、改進驗收以及故障模擬等環節也是必不可少的。

此外,火山引擎云平臺依照行業SRE實踐進行前端穩定性維護的同時,還進一步精進了企業內部的云平臺維護方法論。

一是文化建設,由于工作人員的意識在云平臺穩定性建設中起著重要作用,火山引擎內部開展了一系列培養工作人員穩定性意識的工作,包括穩定意識建設的月會、培訓、考試、復盤等。這些工作的實行有效地提高了工作人員對故障預防的積極性與主動性,從而有效增加了云平臺無故障運行時間。

二是通過控制操作管理流程來提升MTBF,降低MTTR,比如事故前的預防流程,包括變更的規范、事故演練的規范;事故中的管控,比如發現故障后的處理方法,事故的及時定位等;事故后的治理,復盤要遵循的規范等。

二、火山引擎云平臺前端穩定性具體實踐

前端是云平臺與客戶直接的接觸點,客戶對操作類故障的感知更加明顯,也更容易發現體驗類的問題,因此前端反饋的信息更能代表客戶的真實體驗。此外,前端幾乎覆蓋全部的用戶場景和終端場景,但在測試的過程中又會遇到非必現問題等特殊情況,使得前端復現路徑成為難點。

火山引擎云平臺前端團隊通過建立前端底層技術基座,接入統一的渲染、頁面托管服務,從而解決前端建設多站點、多域名、多語言以及多客戶端支持的問題。在向上涉及到業務層面時,也能解決業務統一埋點的問題。此外,在統一的架構基礎上,火山引擎云平臺前端團隊還建設了統一的監控告警和性能體驗,多方位保障前端業務的穩定運行。

此外,火山引擎云平臺前端團隊還精心設計前端的服務架構。當用戶在瀏覽器發起請求時,靜態資源會直接請求CDN,動態資源會直接請求DCDN。根據前端頁面的渲染方式不同,請求不同的后端服務層,再進一步對接下游服務,從而在架構設計上促進前端業務平穩運行。

官網的穩定性建設

云計算官網是觸達云計算客戶,以及完成客戶轉化的主要平臺。其中包括產品介紹頁面、活動營銷等功能,但同時也會有一些強依賴后端的業務,比如搜索、文檔、產品體驗等。

火山引擎云平臺前端團隊從前端接入層、服務層、數據層、基建層各方面協調布局,從官網服務面和管理面雙管齊下,推進服務穩定性監控、網絡鏈路治理、頁面穩定性治理。通過接入APM和TLS服務,建立前端服務的監控體系,實現頁面請求、渲染、JS、黑白屏等指標和異常的上報功能,并使用自定義事件來補充定制業務指標的上報功能,使用自動化歸因工具來輔助研發人員排查定位告警問題,告知錯誤信息(觸發的用戶環境、URL、發布版本、狀態碼,堆棧信息等)。此外,通過頁面代碼巡檢根據特征匹配防止上線時出現錯誤,利用E2E巡檢進行通用CV監控、白屏檢測等有效降低官網頁面MTTR,提升用戶體驗。

火山引擎控制臺穩定性建設

火山引擎云控制臺主要分為三部分,分別是客戶側、云控制臺、云產品。客戶在使用云產品時,首先會涉及火山引擎控制臺的基礎功能,例如賬號注冊、登錄、賬單查詢等。其次是依托IaaS、PaaS、SaaS等云控制平臺而運行的各種云產品。讓云產品通過平臺對外進行服務,并且保證云產品的穩定性,是火山引擎控制臺穩定性建設中非常重要的話題。

火山引擎控制臺前端團隊為各云產品提供了前端頁面服務接入和托管的方案。在前端BFF場景中,主要使用三個內部工具進行全鏈路穩定性監控和治理。其中,Rhino用于壓測,ByteHAS用來進行故障注入,Argos則是服務監控告警平臺。通過這些工具,可以幫助團隊快速定位問題、驗證評估方案并監控服務狀態,從而提高系統可靠性。

隨著業務不斷發展,BFF服務規模和復雜程度越來越高,服務間調用鏈路也越來越長。因此,維護BFF層的穩定性就變得至關重要。為此,火山引擎云平臺前端團隊從確定監控指標、監控可行性驗證、實施監控方案到分析結果、改進優化,不斷精細化BFF 穩定性評估指標類型,并制定了全方位的BFF層穩定性建設方案,不斷推進火山引擎穩定性建設的可操作性和科學性。

此外,所有云產品的控制臺都需要火山引擎云平臺前端團隊提供服務,比如頁面通用的頂部導航、側邊欄以及Web SDK功能。其中,Web SDK的接入使得所有控制臺頁面、云產品頁面具備了異常監控的能力。火山引擎云平臺前端團隊基于此來進行頁面的資源檢測、HTTP的Error監控、白屏檢測等統一的前端情況監控以及數據收集工作。再將數據匯總到Slardar平臺,由Slardar平臺判斷性能分析的情況以及是否進行告警。Slardar平臺一旦分析出異常情況就會立即發出告警,再經由團隊內部嚴謹的管控流程進行告警處理。

火山引擎云平臺前端團隊在進行前端穩定性維護時,利用先進的監控管理工具,采納周密嚴謹的事故預防和解決流程,不僅注重團隊技術上的專業性,也從未忽視意識上的能動性,前端架構和團隊文化兩手抓,形成了一套專業、具體、可操作性強的前端穩定性建設方法論,火山引擎云平臺前端團隊的前端穩定性建設實踐也成為眾多前端工程師學習的范本。

本文整理自火山引擎云平臺前端負責人蔣雷在WOT2023大會上的主題分享,更多精彩內容及現場PPT,請關注《清一色技術棧》公眾號,發消息【WOT2023PPT】即可直接領取。

關鍵詞:

最近更新

關于本站 管理團隊 版權申明 網站地圖 聯系合作 招聘信息

Copyright © 2005-2023 創投網 - www.extremexp.net All rights reserved
聯系我們:39 60 29 14 2@qq.com
皖ICP備2022009963號-3