展會信息港展會大全

北京亦莊某數(shù)據(jù)中心宕機后的危機7小時
來源:互聯(lián)網(wǎng)   發(fā)布日期:2016-8-3   瀏覽:3825次  

導(dǎo)讀:2016年4月22日11時28分,某數(shù)據(jù)中心服務(wù)商位于北京亦莊的數(shù)據(jù)中心供電中斷,在該機房托管的多家金融機構(gòu)和73家村鎮(zhèn)銀行的所有設(shè)備宕機,服務(wù)全部中斷長達7小時以上! 數(shù)據(jù)中心出故障不算新鮮事,但這次事故的罪魁禍?zhǔn)讌s有點大跌眼鏡:UPS過載…… ......

2016年4月22日11時28分,某數(shù)據(jù)中心服務(wù)商位于北京亦莊的數(shù)據(jù)中心供電中斷,在該機房托管的多家金融機構(gòu)和73家村鎮(zhèn)銀行的所有設(shè)備宕機,服務(wù)全部中斷長達7小時以上!

數(shù)據(jù)中心出故障不算新鮮事,但這次事故的罪魁禍?zhǔn)讌s有點大跌眼鏡:UPS過載……據(jù)悉,該數(shù)據(jù)中心服務(wù)商計劃對數(shù)據(jù)中心的4臺老舊UPS進行升級。首先更換其中的兩臺,同時由另外兩臺進行供電;然后,再更新另外兩臺,在此期間由柴油發(fā)電機供電。

但是,升級過程中,兩臺老舊的UPS負載過高,切到旁路,很快三臺柴油發(fā)電機接連出現(xiàn)“失磁”報警,停止運行,導(dǎo)致機房全部設(shè)備斷電,系統(tǒng)宕機!73家村鎮(zhèn)銀行的諸多關(guān)鍵業(yè)務(wù)全部中斷,部分服務(wù)器損壞,銀行業(yè)務(wù)系統(tǒng)最長的恢復(fù)時間長達7小時以上;部分金融機構(gòu)的開發(fā)測試系統(tǒng)、災(zāi)備系統(tǒng)、生產(chǎn)業(yè)務(wù)系統(tǒng)不同時間中斷……

北京亦莊某數(shù)據(jù)中心宕機后的危機7小時

缺乏設(shè)備更新升級的標(biāo)準(zhǔn)流程

設(shè)備更新是所有數(shù)據(jù)中心都會進行的常用操作,關(guān)鍵設(shè)備的升級更新應(yīng)該有一套標(biāo)準(zhǔn)的流程才能進行升級。在此次事故中, 4臺UPS的負載已經(jīng)達到了不能兩臺同時下線的程度,這是完全可以通過管理工具測算出來的。操作升級時,沒有事先進行調(diào)研,就制定了兩臺一組進行更換的計劃,這屬于完全可以通過標(biāo)準(zhǔn)工作流程處理能夠避免的事故。

缺少應(yīng)急預(yù)案

供電故障是國內(nèi)數(shù)據(jù)中心比較常見的災(zāi)難產(chǎn)生原因。而當(dāng)UPS出現(xiàn)過載時,卻沒有迅速準(zhǔn)確的應(yīng)對措施,應(yīng)該說是有缺陷的。如果有針對此場景的應(yīng)急預(yù)案,從UPS開始報警到宕機的幾十分鐘里,迅速應(yīng)對,完全有機會避免事故的發(fā)生。

選擇錯誤的作業(yè)時間

更換UPS這樣的高風(fēng)險作業(yè),其實完全可以放在業(yè)務(wù)量較低的夜間進行。而此次作業(yè)安排在白天,并且事前未向銀行明確提示風(fēng)險,銀行準(zhǔn)備不足,導(dǎo)致業(yè)務(wù)長時間不能恢復(fù)。

違規(guī)分包機房主要運維服務(wù)

事件責(zé)任公司將某村鎮(zhèn)銀行生產(chǎn)機房的基礎(chǔ)設(shè)施管理等主要服務(wù)內(nèi)容分包,不符合《銀行業(yè)金融機構(gòu)信息科技外包風(fēng)險監(jiān)管指引》第三十七條“不得將外包服務(wù)的主要業(yè)務(wù)分包”的風(fēng)控原則。

北京亦莊某數(shù)據(jù)中心宕機后的危機7小時

如何規(guī)避災(zāi)備的“人禍”?

如何進行災(zāi)備、如何對機房和災(zāi)備設(shè)施進行管理,是企業(yè)非常關(guān)注的問題。很多企業(yè)投入巨資,建設(shè)災(zāi)備系統(tǒng),就是為了避免出現(xiàn)災(zāi)難時發(fā)生重大損失。

但是我們發(fā)現(xiàn),很多用戶都認為災(zāi)備主要面對的是各種自然災(zāi)害,忽略了各種人為錯誤導(dǎo)致的災(zāi)難。而實際上,我們經(jīng)歷的絕大部分災(zāi)難,都是人為造成的。軟硬件升級、調(diào)試、配置等造成的故障要遠遠多過火災(zāi)、地震發(fā)生的概率。因此,建設(shè)災(zāi)備系統(tǒng)時,應(yīng)該充分考慮人為因素,制訂預(yù)案和流程管理。

其次,災(zāi)備系統(tǒng)的管理至關(guān)重要。如何管理?很多用戶以為災(zāi)備系統(tǒng)建設(shè)好了就可以高枕無憂了,幾乎不會再去對它進行管理,很多軟硬件都陸續(xù)升級,而災(zāi)備預(yù)案從來沒有更新過,這樣的災(zāi)備系統(tǒng),很難在災(zāi)難真正降臨的時候發(fā)揮作用。

服務(wù)商是否值得信賴?很多用戶在選擇托管服務(wù)的時候還認真考察過服務(wù)商的服務(wù)水平,但是一旦選定之后很少會再去關(guān)注他們的運營質(zhì)量。尤其是很多關(guān)鍵業(yè)務(wù)托管上云之后,更是如此。這也不奇怪,業(yè)務(wù)在云之間進行遷移的風(fēng)險和成本極高,所以一旦完成遷移上線,幾乎很少會有用戶再去監(jiān)督服務(wù)商的服務(wù)質(zhì)量。反正也遷不出來,即使發(fā)現(xiàn)他們有些不合規(guī)也只能捏著鼻子認了。這導(dǎo)致了服務(wù)商的服務(wù)質(zhì)量得不到監(jiān)督。長此以往,就很有可能出現(xiàn)服務(wù)質(zhì)量下降的情況。服務(wù)商在發(fā)生災(zāi)難時的損失和客戶在發(fā)生災(zāi)難時的損失往往不在同一個層次上,這也使得服務(wù)商沒有足夠的意愿去保證服務(wù)水平。

數(shù)據(jù)中心的運維具有各種潛在的失控因素,但如果能夠盡量排除“人禍”,也許能夠盡量降低災(zāi)難發(fā)生的風(fēng)險。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港