需求背景
目前node端的服務(wù)逐漸成熟,在不少公司內(nèi)部也開始承擔(dān)業(yè)務(wù)處理或者視圖渲染工作。不同于個人開發(fā)的簡單服務(wù)器,企業(yè)級的node服務(wù)要求更為苛刻:
高穩(wěn)定性、高可靠性、魯棒性以及直觀的監(jiān)控和報警
想象下一個存在安全隱患且沒有監(jiān)控預(yù)警系統(tǒng)的node服務(wù)在生產(chǎn)環(huán)境下運行的場景,當某個node實例掛掉的情況下,運維人員或者對應(yīng)開發(fā)維護人員無法立即知曉,直到客戶或者測試人員報告bugs才開始解決問題。在這段無人處理的時間內(nèi),損失的訂單數(shù)和用戶的忠誠度和信任度將是以后無法彌補的,因此對于node程序的業(yè)務(wù)開發(fā)者而言,這就要求代碼嚴謹、異常處理完備;對于node框架的維護者而言,則需要提供完善的監(jiān)控預(yù)警系統(tǒng)。
功能
當一個服務(wù)進程在后端運行時(daemon),作為開發(fā)者我們關(guān)注的信息主要有以下幾點:
服務(wù)進程是否正在運行,isalive
服務(wù)進程的內(nèi)存使用率,是否存在未回收(釋放)的內(nèi)存
服務(wù)進程的cpu使用率,在計算量大的情況下是否需要分片處理、延時處理
服務(wù)進程的實時響應(yīng)時間和吞吐量
而作為一個運維人員,關(guān)注的不僅僅是node服務(wù)進程的相關(guān)信息,還包括物理主機的使用狀況:
物理硬盤所剩存儲空間
內(nèi)存、cpu使用率
網(wǎng)絡(luò)接入是否正常
可以看出,不管是針對主機還是進程進行監(jiān)控,我們的關(guān)注點大多數(shù)是資源使用率和業(yè)務(wù)量處理能力,因此我們的監(jiān)控預(yù)警系統(tǒng)也著重實現(xiàn)這些功能。