非常抱歉,今天下午14:20-14:55期間,由于同一個(gè)負(fù)載均衡中的2臺(tái)服務(wù)器都出現(xiàn)CPU 100%問題,造成博客后臺(tái)無(wú)法正常訪問,由此給您帶來(lái)了很大很大的麻煩,請(qǐng)您諒解。
博客后臺(tái)是CPU消耗很低的應(yīng)用,這2臺(tái)服務(wù)器通常CPU占用在5%左右,之前從來(lái)沒有出現(xiàn)CPU 100%的問題(所以連云監(jiān)控都沒添加CPU監(jiān)控報(bào)警)。這次問題很突然,我們發(fā)現(xiàn)問題后,遠(yuǎn)程連接不上服務(wù)器,只能通過(guò)阿里云控制臺(tái)重啟服務(wù)器,重啟后立馬恢復(fù)正常。
對(duì)于問題的具體原因,目前還沒找到,我們正在進(jìn)一步排查,也反饋給了阿里云,阿里云也在排查。
對(duì)于這次故障,我們會(huì)吸取教訓(xùn),采取改進(jìn)措施:
1)加強(qiáng)監(jiān)控
2)采用 Docker 進(jìn)行容器化部署:在更多服務(wù)器上用更多容器運(yùn)行,避免2臺(tái)服務(wù)器同時(shí)出問題引發(fā)故障,但這要等我們完成博客后臺(tái)向 ASP.NET Core 的遷移。