2021-02-23 分類: 網(wǎng)站建設(shè)
下面將主要從白盒監(jiān)控的采集入手,解答上面關(guān)于新系統(tǒng)如何添加監(jiān)控的問題。
圖 1 黑盒與白盒監(jiān)控
監(jiān)控指標(biāo)的采集
配置監(jiān)控時(shí),我們首要面對(duì)的是監(jiān)控?cái)?shù)據(jù)如何采集的問題。一般我們可以把監(jiān)控指標(biāo)分為兩類:基礎(chǔ)監(jiān)控和業(yè)務(wù)監(jiān)控。
基礎(chǔ)監(jiān)控
包括CPU、內(nèi)存、磁盤、端口和進(jìn)程等機(jī)器、網(wǎng)絡(luò)的操作系統(tǒng)級(jí)別的信息。通常情況下,成熟的監(jiān)控系統(tǒng)(例如開源的Prometheus、Zabbix等)均會(huì)提供基礎(chǔ)監(jiān)控項(xiàng)的采集能力,這里不做過多介紹。但需要注意的一點(diǎn),機(jī)器級(jí)別的基礎(chǔ)監(jiān)控指標(biāo)一般并不能代表服務(wù)的真實(shí)運(yùn)行狀況,例如單臺(tái)實(shí)例的故障對(duì)一個(gè)設(shè)計(jì)合理的分布式系統(tǒng)來說并不會(huì)帶來嚴(yán)重后果。所以只有結(jié)合業(yè)務(wù)相關(guān)監(jiān)控指標(biāo),基礎(chǔ)監(jiān)控指標(biāo)才有意義。
業(yè)務(wù)監(jiān)控
業(yè)務(wù)監(jiān)控指標(biāo)由業(yè)務(wù)系統(tǒng)內(nèi)部的服務(wù)產(chǎn)生,一般能夠真實(shí)反應(yīng)業(yè)務(wù)運(yùn)行狀態(tài)。設(shè)計(jì)合理的系統(tǒng)一般都會(huì)提供相關(guān)監(jiān)控指標(biāo)供監(jiān)控系統(tǒng)采集。監(jiān)控?cái)?shù)據(jù)的采集方法一般可以分為以下幾大類:
以上列出了幾種常見的監(jiān)控指標(biāo)采集方法,在實(shí)際工作,如果沒有現(xiàn)成的監(jiān)控采集插件,則需要我們自行開發(fā)采集腳本。
四個(gè)黃金指標(biāo)
圖 2 四個(gè)黃金指標(biāo)
無論業(yè)務(wù)系統(tǒng)如何復(fù)雜,監(jiān)控指標(biāo)如何眼花繚亂,但萬變不離其宗,監(jiān)控的目的無非是為了解服務(wù)運(yùn)行狀況、發(fā)現(xiàn)服務(wù)故障和幫助定位故障原因。為了達(dá)成這個(gè)目的,Google SRE總結(jié)的監(jiān)控四個(gè)黃金指標(biāo)對(duì)我們添加監(jiān)控具有非常重要的指導(dǎo)意義。圖 2給出四個(gè)黃金指標(biāo)所包含的主要監(jiān)控指標(biāo),下面我們就這四個(gè)黃金指標(biāo)分別展開說明,并給出一些監(jiān)控項(xiàng)的采集實(shí)例。
錯(cuò)誤:錯(cuò)誤是指當(dāng)前系統(tǒng)發(fā)生的錯(cuò)誤請(qǐng)求
和錯(cuò)誤率
說明:
錯(cuò)誤是需要在添加監(jiān)控時(shí)首要關(guān)注的指標(biāo)。在添加錯(cuò)誤相關(guān)監(jiān)控時(shí),我們應(yīng)該關(guān)注以下幾個(gè)方面:
基礎(chǔ)監(jiān)控:宕機(jī)、磁盤(壞盤或文件系統(tǒng)錯(cuò)誤)、進(jìn)程或端口掛掉、網(wǎng)絡(luò)丟包等故障
業(yè)務(wù)監(jiān)控:
注意:除白盒監(jiān)控外,主要功能或接口、以及內(nèi)部存在明顯邊界的功能模塊和上游依賴模塊,都應(yīng)該添加黑盒端到端監(jiān)控。
延遲:服務(wù)請(qǐng)求所需時(shí)間
說明:
服務(wù)延遲的上升不僅僅體現(xiàn)在用戶體驗(yàn)的下降,也有可能會(huì)導(dǎo)致請(qǐng)求堆積并最終演變?yōu)檎麄€(gè)業(yè)務(wù)系統(tǒng)的雪崩。以下為延遲指標(biāo)的主要關(guān)注點(diǎn):
注意:與錯(cuò)誤指標(biāo)類似,白盒延遲指標(biāo)通常僅能代表系統(tǒng)內(nèi)部延遲,建議為主要功能或接口添加黑盒監(jiān)控來采集端到端的延遲指標(biāo)。
流量:當(dāng)前系統(tǒng)的流量
說明:
流量指標(biāo)可以指系統(tǒng)層面的網(wǎng)絡(luò)和磁盤IO,服務(wù)層面的QpS、PV和UV等數(shù)據(jù)。流量和突增或突減都可能預(yù)示著系統(tǒng)可能出現(xiàn)問題(攻擊事件、系統(tǒng)故障…)。
飽和度:用于衡量當(dāng)前服務(wù)的利用率
說明:
更為通俗的講,飽和度可以理解為服務(wù)的利用率,可以代表系統(tǒng)承受的壓力。所以飽和度與流量息息相關(guān),流量的上升一般也會(huì)導(dǎo)致飽和度的上升。通常情況下,每種業(yè)務(wù)系統(tǒng)都應(yīng)該有各自的飽和度指標(biāo)。在很多業(yè)務(wù)系統(tǒng)中,消息隊(duì)列長度是一個(gè)比較重要的飽和度指標(biāo),除此之外CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等系統(tǒng)資源利用率也可以作為飽和度的一種體現(xiàn)方式。
基礎(chǔ)監(jiān)控:CPU、內(nèi)存、磁盤和網(wǎng)絡(luò)利用率、內(nèi)存堆棧利用率、文件句柄數(shù)、TCP連接數(shù)等
業(yè)務(wù)監(jiān)控:
總結(jié)
以上總結(jié)了常見的監(jiān)控指標(biāo)采集方法,以及四個(gè)黃金指標(biāo)所包含的常見內(nèi)容。在實(shí)際工作中,不同的監(jiān)控系統(tǒng)的設(shè)計(jì)多種多樣,沒有統(tǒng)一標(biāo)準(zhǔn),并且不同的業(yè)務(wù)系統(tǒng)通常也有著特定的監(jiān)控采集方法和不同的黃金指標(biāo)定義,具體如何采集監(jiān)控指標(biāo)和添加告警都需要我們針對(duì)不同系統(tǒng)特點(diǎn)靈活應(yīng)對(duì)。
在前面的監(jiān)控系列文章中,我們介紹了Kafka、Zookeeper、ElasticSearch、Hadoop以及電商商城平臺(tái)等一系列開源軟件和業(yè)務(wù)系統(tǒng)的監(jiān)控實(shí)踐。但通常情況下,線上業(yè)務(wù)一般是由眾多開源或自研中間件加上層業(yè)務(wù)系統(tǒng)組成。而業(yè)務(wù)系統(tǒng)的復(fù)雜度會(huì)隨著系統(tǒng)變更和新業(yè)務(wù)上線而發(fā)生快速增長。不斷變化的業(yè)務(wù)環(huán)境下,新業(yè)務(wù)層出不窮。當(dāng)面臨一個(gè)新系統(tǒng)時(shí),監(jiān)控工作應(yīng)該如何開展?
新聞標(biāo)題:運(yùn)維監(jiān)控的終極秘籍,盤它!
文章路徑:http://www.rwnh.cn/news/102500.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊(cè)、商城網(wǎng)站、網(wǎng)站改版、全網(wǎng)營銷推廣、品牌網(wǎng)站設(shè)計(jì)、電子商務(wù)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容