2024年4月8日下午,騰訊云出現(xiàn)服務(wù)故障,接口響應(yīng)報(bào)錯(cuò)、內(nèi)部服務(wù)錯(cuò)誤,網(wǎng)頁(yè)顯示504錯(cuò)誤。504錯(cuò)誤代表網(wǎng)關(guān)超時(shí)(Gateway timeout),是指服務(wù)器作為網(wǎng)關(guān)或代理,但沒(méi)有及時(shí)從上游服務(wù)器收到請(qǐng)求。
4月8日傍晚,騰訊云公告,騰訊云官網(wǎng)控制臺(tái)相關(guān)服務(wù)出現(xiàn)異常,工程師正在緊急修復(fù)中。部分地區(qū)已恢復(fù),其他地區(qū)也正在繼續(xù)搶修當(dāng)中。
4月14日,騰訊云官方對(duì)4月8日故障情況進(jìn)行說(shuō)明:4月8日15點(diǎn)23分,騰訊云團(tuán)隊(duì)收到告警信息,云API服務(wù)處于異常狀態(tài);隨即在騰訊云工單、售后服務(wù)群以及微博等渠道開(kāi)始大量出現(xiàn)騰訊云控制臺(tái)登錄不上的客戶反饋。
經(jīng)過(guò)故障定位發(fā)現(xiàn),客戶登錄不上控制臺(tái)正是由云API異常所導(dǎo)致。云API是云上統(tǒng)一的開(kāi)放接口集合,客戶可以通過(guò)API以編程方式管理和操控云端資源,云控制臺(tái)通過(guò)組合云API提供交互式的網(wǎng)頁(yè)功能。而事故根本原因在于騰訊云版本變更過(guò)程中,沒(méi)有有效執(zhí)行沙箱驗(yàn)證和預(yù)案演練,暴露了在變更管理上的不足,最終導(dǎo)致云API服務(wù)新版本向前兼容性考慮不夠和配置數(shù)據(jù)灰度機(jī)制不足的問(wèn)題。
故障發(fā)生后,騰訊云方面表示,依賴(lài)云API提供產(chǎn)品能力的部分公有云服務(wù),也因?yàn)樵艫PI的異常出現(xiàn)了無(wú)法使用的情況,比如云函數(shù)、文字識(shí)別、微服務(wù)平臺(tái)、音頻內(nèi)容安全、驗(yàn)證碼等。此次故障一共持續(xù)了近87分鐘,期間共有1957個(gè)客戶報(bào)障。
從客戶的視角來(lái)看,云服務(wù)可以分為數(shù)據(jù)面和控制面,數(shù)據(jù)面承載客戶自身的業(yè)務(wù),控制面負(fù)責(zé)操作云上不同產(chǎn)品。比如目前使用最廣泛的IaaS服務(wù)基本上都是以直接面向數(shù)據(jù)面為主,控制面僅在客戶購(gòu)買(mǎi)或需要對(duì)資源層面進(jìn)行調(diào)整操作時(shí)會(huì)涉及。此次發(fā)生故障的控制臺(tái)和云API是對(duì)控制面的影響。通俗來(lái)講,如果把云服務(wù)類(lèi)比為酒店,控制臺(tái)相當(dāng)于酒店的前臺(tái),是一個(gè)統(tǒng)一的服務(wù)入口。一旦酒店前臺(tái)發(fā)生故障,會(huì)導(dǎo)致入住、續(xù)住等管理能力不可用,但已入住的客房不受影響。
騰訊云方面稱(chēng),這次故障中客戶已經(jīng)配置好的服務(wù)器等IaaS資源,包括已經(jīng)部署運(yùn)行的業(yè)務(wù),沒(méi)有受到云API異常的影響。其他以非云API方式提供服務(wù)的PaaS和SaaS服務(wù),處于正常服務(wù)的狀態(tài)。但用API提供的服務(wù)類(lèi)產(chǎn)品(需要“酒店前臺(tái)服務(wù)“)有不同程度的影響,比如騰訊云存儲(chǔ)服務(wù)調(diào)用當(dāng)天有明顯下滑。期間售后團(tuán)隊(duì)協(xié)助部分客戶做了業(yè)務(wù)容災(zāi)預(yù)案的實(shí)施,將受影響服務(wù)做調(diào)度以快速恢復(fù)客戶的業(yè)務(wù)服務(wù)。
騰訊云方面表示將從提升系統(tǒng)韌性、強(qiáng)化變更管理與保護(hù)措施、增強(qiáng)故障響應(yīng)與溝通能力三方面進(jìn)行改進(jìn)。
近年來(lái),因云服務(wù)問(wèn)題導(dǎo)致應(yīng)用程序“崩了”的現(xiàn)象頻繁發(fā)生。今年4月9日,支付寶崩了登上熱搜,用戶反映在使用支付寶APP時(shí)出現(xiàn)“已經(jīng)停止訪問(wèn)”的頁(yè)面。隨后支付寶方面回應(yīng)稱(chēng):少量用戶訪問(wèn)部分頁(yè)面時(shí)出現(xiàn)了短暫性的訪問(wèn)不暢。這一情況已經(jīng)快速恢復(fù),用戶的資金和信息安全都不受影響,各項(xiàng)功能也都可以正常使用。但具體事故原因并未進(jìn)一步說(shuō)明。
2023年12月3日晚,騰訊視頻“崩了”登上微博熱搜。騰訊視頻方面回應(yīng)稱(chēng),出現(xiàn)了短暫技術(shù)問(wèn)題,正在加緊修復(fù),各項(xiàng)功能在逐步恢復(fù)中。
2023年11月27日晚間,滴滴App系統(tǒng)發(fā)生故障,全國(guó)大面積崩潰,服務(wù)無(wú)法正常使用。11月29日,滴滴方面發(fā)表聲明稱(chēng),各項(xiàng)服務(wù)已經(jīng)恢復(fù),初步確定,這起事故的起因是底層系統(tǒng)軟件發(fā)生故障。
2023年3月5日20:20左右,在B站用戶活躍的高峰期,許多網(wǎng)友發(fā)現(xiàn)B站手機(jī)和電腦端均無(wú)法訪問(wèn)視頻詳情頁(yè),當(dāng)晚B站團(tuán)隊(duì)在出現(xiàn)故障20分鐘后解決了問(wèn)題。多位行業(yè)人士?jī)A向于原因是“迭代更新出現(xiàn)代碼故障”,這是2021年7月B站大規(guī)模服務(wù)器崩潰后的官方解釋。
如果不是滴滴全國(guó)范圍的長(zhǎng)時(shí)間崩潰造成大規(guī)模的負(fù)面影響與討論度,非行業(yè)人士不會(huì)將某款軟件的暫時(shí)“崩了”作為熱點(diǎn)討論。萬(wàn)博智云CTO孫琦對(duì)第一財(cái)經(jīng)表示,滴滴事件僅是一個(gè)個(gè)案,但該事件故障級(jí)別較大,確實(shí)影響到了一定規(guī)模普通群眾的生活。實(shí)際上,很多用戶看不到的軟件故障正在每天發(fā)生,這在行業(yè)內(nèi)是一個(gè)較為常見(jiàn)的問(wèn)題。
此次騰訊云發(fā)生大范圍故障,有行業(yè)人士將其與2023年11月阿里云史詩(shī)級(jí)故障并稱(chēng)。2023年11月12日晚間,阿里云發(fā)生故障,“阿里云盤(pán)崩了” “淘寶又崩了” “閑魚(yú)崩了” “釘釘崩了” 等話題相繼登上熱搜,阿里系諸多產(chǎn)品受到影響。阿里云對(duì)此公告稱(chēng),2023年11月12日17:44起,阿里云監(jiān)控發(fā)現(xiàn)云產(chǎn)品控制臺(tái)訪問(wèn)及API調(diào)用出現(xiàn)異常,阿里云工程師正在緊急介入排查。18:54阿里云再度公告稱(chēng),經(jīng)過(guò)工程師處理,杭州、北京等地域控制臺(tái)已恢復(fù),其他地域控制臺(tái)服務(wù)逐步恢復(fù)中。
近期國(guó)內(nèi)云平臺(tái)密集降價(jià),阿里云甚至直接將云產(chǎn)品以折扣形式搬進(jìn)羅永浩淘寶直播間,傳統(tǒng)IaaS產(chǎn)品逐漸同質(zhì)化,云廠商競(jìng)爭(zhēng)逐漸轉(zhuǎn)為價(jià)格競(jìng)爭(zhēng)。但在追求銷(xiāo)量與市場(chǎng)規(guī)模的同時(shí),客戶的基礎(chǔ)運(yùn)維與數(shù)據(jù)安全工作,不應(yīng)因“降本增效”而被忽視。