1957名用戶報(bào)障!騰訊云公布4月8日故障復(fù)盤:云API異常持續(xù)近87分鐘
快科技4月14日消息,4月8日,有大量網(wǎng)友反饋,稱騰訊云出現(xiàn)服務(wù)故障,出現(xiàn)騰訊云控制臺登錄不上等情況。
今日,騰訊云發(fā)布4月8日故障復(fù)盤及情況說明。
經(jīng)過故障定位發(fā)現(xiàn),客戶登錄不上控制臺正是由云API異常所導(dǎo)致,故障發(fā)生后,依賴云API提供產(chǎn)品能力的部分公有云服務(wù)。
也因?yàn)樵艫PI的異常出現(xiàn)了無法使用的情況,比如云函數(shù)、文字識別、微服務(wù)平臺、音頻內(nèi)容安全、驗(yàn)證碼等。
官方表示,此次故障一共持續(xù)了近87分鐘,期間共有1957個(gè)客戶報(bào)障。
故障的原因是云API服務(wù)新版本向前兼容性考慮不夠和配置數(shù)據(jù)灰度機(jī)制不足的問題。
本次API升級過程中,由于新版本的接口協(xié)議發(fā)生了變化,在后臺發(fā)布新版本之后對于舊版本前端傳來的數(shù)據(jù)處理邏輯異常,導(dǎo)致生成了一條錯(cuò)誤的配置數(shù)據(jù),由于灰度機(jī)制不足導(dǎo)致異常數(shù)據(jù)快速擴(kuò)散到了全網(wǎng)地域,造成整體API使用異常。
騰訊云稱,發(fā)生故障后,按照標(biāo)準(zhǔn)回滾方案將服務(wù)后臺和配置數(shù)據(jù)同時(shí)回滾到舊版本,并重啟API后臺服務(wù),但此時(shí)因?yàn)槌休dAPI服務(wù)的容器平臺也依賴API服務(wù)才能提供調(diào)度能力,即發(fā)生了循環(huán)依賴,導(dǎo)致服務(wù)無法自動拉起。
通過運(yùn)維手工啟動方式才使API服務(wù)重啟,完成整個(gè)故障恢復(fù)。
問題復(fù)盤
整個(gè)處理過程如下:
1.15:23,監(jiān)測到故障,立即執(zhí)行服務(wù)的恢復(fù),同時(shí)進(jìn)行原因的排查;
2.15:47,發(fā)現(xiàn)通過回滾版本沒能完全恢復(fù)服務(wù),進(jìn)一步定位問題;
3.15:57,定位出故障根因是配置數(shù)據(jù)出現(xiàn)錯(cuò)誤,緊急設(shè)計(jì)數(shù)據(jù)修復(fù)方案;4.16:02,對全地域進(jìn)行數(shù)據(jù)修復(fù)工作,API服務(wù)逐地域恢復(fù)中;
5.16:05,觀測到除上海外的地域API服務(wù)均已恢復(fù),進(jìn)一步定位上海地域的恢復(fù)問題;
6.16:25,定位到上海的技術(shù)組件存在API循環(huán)依賴問題,決定通過流量調(diào)度至其他地域來恢復(fù);
7.16:45,觀測到上海地域恢復(fù)了,此時(shí)API和依賴API的PaaS服務(wù)徹底恢復(fù),但控制臺流量劇增,按九倍容量進(jìn)行了擴(kuò)容;
8.16:50,請求量逐漸恢復(fù)到正常水平,業(yè)務(wù)穩(wěn)定運(yùn)行,控制臺服務(wù)全部恢復(fù);9.17:45,持續(xù)觀察一小時(shí),未發(fā)現(xiàn)問題,按預(yù)案處理過程完畢。
改進(jìn)措施
綜合盤點(diǎn)這次故障,最根本的原因是在版本變更過程中,沒有有效執(zhí)行沙箱驗(yàn)證和預(yù)案演練,暴露了在變更管理上的不足,接下來將從以下幾個(gè)方面快速進(jìn)行改進(jìn)和完善,以減少故障的影響范圍和影響時(shí)長。
第一,提升系統(tǒng)韌性
1、定期執(zhí)行預(yù)定的變更策略模擬演練,確保在真實(shí)故障發(fā)生時(shí),能夠迅速切換到恢復(fù)模式,最小化服務(wù)中斷時(shí)間。
2、優(yōu)化服務(wù)部署架構(gòu),通過分層架構(gòu)、代碼審查和監(jiān)控等手段, 避免API服務(wù)中潛在的循環(huán)依賴問題。
3、提供API服務(wù)逃生通道,當(dāng)故障發(fā)生時(shí),可供調(diào)用方快速切換。
第二,強(qiáng)化變更管理與保護(hù)措施
1、完善自動化測試用例庫,在系統(tǒng)變更前通過沙箱環(huán)境對變更內(nèi)容進(jìn)行嚴(yán)格驗(yàn)證。
2、實(shí)施灰度發(fā)布策略,逐步推廣新功能或配置更改,按集群、可用區(qū)、地域逐步生效,以便在發(fā)現(xiàn)問題時(shí)能夠迅速回滾。
3、引入異常自動熔斷機(jī)制,當(dāng)檢測到系統(tǒng)異常時(shí),能夠立即中斷變更過程。
第三,增強(qiáng)故障響應(yīng)與溝通能力
1、對故障處理流程進(jìn)行全面升級,確保實(shí)時(shí)更新故障處理進(jìn)度和預(yù)計(jì)恢復(fù)時(shí)間點(diǎn),提升故障報(bào)告發(fā)布效率。
2、在對外發(fā)布的故障通知中,清晰闡述受影響的業(yè)務(wù)范圍、故障根因及預(yù)計(jì)修復(fù)時(shí)長,保持透明度。
3、優(yōu)化騰訊云健康狀態(tài)看板(StatusPage)的信息展示邏輯,解除對云API等云服務(wù)的依賴,通過引入緩存和容災(zāi)機(jī)制,確保即使在云服務(wù)出現(xiàn)故障時(shí),能準(zhǔn)確、及時(shí)地傳遞故障信息。
對于騰訊云本次故障復(fù)盤及情況說明,有網(wǎng)友表示:“能對外公布過程,對用戶透明,也是種進(jìn)步”“有故障不可怕,關(guān)鍵是要能在故障中去真正總結(jié)、改進(jìn)、沉淀,盡量做好下一次故障的規(guī)避和優(yōu)化,這才是寶貴的經(jīng)驗(yàn)和收獲。”
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com