2024-04-29 分類: 網(wǎng)站建設(shè)
我們從客戶那里聽到的一些最常見的挑戰(zhàn)對你們中的一些人來說可能太熟悉了。IT 領(lǐng)域的事物總是在迅速變化,而且只會加快速度。DevOps、以云為中心的架構(gòu)和軟件定義網(wǎng)絡(luò)的爆炸式增長使得讓監(jiān)控和管理工具與環(huán)境保持同步變得越來越困難。
這導(dǎo)致了另一個(gè)問題——管理層和個(gè)別團(tuán)隊(duì)缺乏對整個(gè)環(huán)境的可見性。大多數(shù)現(xiàn)有的企業(yè)網(wǎng)絡(luò)管理工具在適應(yīng)大多數(shù)組織中正在成為常規(guī)的快速變化和部署方面都很慢。
我們發(fā)現(xiàn)這通常是因?yàn)楫?dāng)管理困難且勞動密集型時(shí),可見性會受到影響。如果需要手動過程來將監(jiān)控添加到新系統(tǒng)中,那么它就永遠(yuǎn)無法保持最新??狀態(tài)。
通常,整個(gè)組織缺乏最新的視圖會導(dǎo)致團(tuán)隊(duì)實(shí)施他們自己的單點(diǎn)解決方案,而且你處理的工具越多,它們就越有可能相互矛盾,更不用說增加了管理和培訓(xùn)負(fù)擔(dān),以及這可能導(dǎo)致的通信問題。
幸運(yùn)的是,這些挑戰(zhàn)中的大多數(shù)都可以通過相同的方式解決——自動化。我們需要一種方法來跟上快速和動態(tài)變化的環(huán)境,同時(shí)保持可見性、避免盲點(diǎn)并保持我們的 SLA。同時(shí)不會產(chǎn)生沒有人有時(shí)間的額外管理開銷。
自動化是我們在多年來一直在使用的東西,我們將自動化成熟度定義為 4 個(gè)主要階段:
發(fā)現(xiàn)、監(jiān)控、響應(yīng)和人工智能或 AIOps。在過去 20 年的發(fā)展中,我們的平臺已經(jīng)發(fā)展到可以完成所有這些工作。讓我們看一下它們中的每一個(gè),您就可以開始了解您的組織今天可能在哪里,以及下一步可能是什么。
第一步:發(fā)現(xiàn)自動化
自動化的第一階段是發(fā)現(xiàn)自動化。現(xiàn)在,這項(xiàng)技術(shù)一直以其最基本的形式存在。我們可能都使用過執(zhí)行 ping 掃描或端口掃描的工具來查找網(wǎng)絡(luò)上的設(shè)備。該技術(shù)在許多環(huán)境中仍然有意義,但它不再是全部答案。
如今,自動發(fā)現(xiàn)發(fā)生了很大變化。有很多東西是您無法可靠掃描的——孤立的虛擬系統(tǒng)、DMZ、云系統(tǒng)和微服務(wù),僅舉幾例?,F(xiàn)代系統(tǒng)利用 API 集成的力量使自動發(fā)現(xiàn)更快、更可靠、更完整,而不會產(chǎn)生網(wǎng)絡(luò)流量問題。
例如,我們利用這些 API 直接從 ServiceNow CMDB、vCenter、Azure 和 AWS 等系統(tǒng)以及 SD-WAN 編排器中學(xué)習(xí)。我們提供入站 API 調(diào)用,允許用戶將我們的系統(tǒng)與 Puppet/Chef 等現(xiàn)有工作流程鏈接,或輕松創(chuàng)建額外的自定義集成,而無需依賴昂貴的顧問。
第二步:監(jiān)控自動化
下一階段是監(jiān)控自動化。這是添加新設(shè)備進(jìn)行監(jiān)控并正確配置它們的地方,不再需要手動干預(yù)。對于我們與之交談的許多組織來說,他們甚至還沒有真正走到這一步。造成這種情況的原因有幾個(gè),但最常見的原因之一是該領(lǐng)域的許多監(jiān)控平臺出人意料地不發(fā)達(dá),而且內(nèi)部開發(fā)資源稀缺且昂貴,如果它們存在的話。
為了有效地達(dá)到這一階段,管理平臺必須不僅能夠在操作系統(tǒng)級別識別新系統(tǒng),而且還能夠檢測諸如哪些服務(wù)或應(yīng)用程序正在其上運(yùn)行,以便就您需要監(jiān)控的內(nèi)容做出正確的決定在那個(gè)系統(tǒng)上。
例如,將 SQL 服務(wù)器作為 VM 啟動應(yīng)該能夠監(jiān)視操作系統(tǒng)、虛擬化堆棧、SQL 應(yīng)用程序本身、適當(dāng)?shù)氖录罩颈O(jiān)視器、當(dāng)它出現(xiàn)問題時(shí)向誰發(fā)出警報(bào)——這可能會因 SQL 問題而有所不同與操作系統(tǒng)問題相比——以及需要觀察什么樣的性能指標(biāo)和統(tǒng)計(jì)數(shù)據(jù)。它還必須包括將其放入正確的類別、站點(diǎn)和業(yè)務(wù)工作流程(驅(qū)動報(bào)告的分組)中,以便新部署的系統(tǒng)始終顯示在正確的報(bào)告中,并且不會漏掉任何東西。
第三階段:自動響應(yīng)事件
第三階段是響應(yīng)自動化。這使您的管理平臺能夠在您的 NOC 或工程師必須做任何事情之前采取獨(dú)立行動來修復(fù)問題。為了以這種方式有效地自動響應(yīng),我們必須允許基于一天中的時(shí)間或一周中的某天等不同的操作 - 例如,如果您希望在工作時(shí)間做出不同的響應(yīng)。它還應(yīng)該允許依賴關(guān)系——例如,如果有其他服務(wù)器運(yùn)行相同的應(yīng)用程序同時(shí)出現(xiàn)問題,則采取不同的措施。
當(dāng)然,應(yīng)該有跨平臺的能力——無論是路由器、Windows、Linux、交換機(jī)還是云托管提供商。這需要與這些設(shè)備進(jìn)行不同的交互方法,因?yàn)橛行┬枰?JSON API 調(diào)用,而另一些可能需要 SSH、powershell 甚至 telnet。
現(xiàn)在,這可能是一大步,一些組織會堅(jiān)持要求操作員干預(yù),至少要在采取行動之前批準(zhǔn)行動——所謂的“點(diǎn)擊重啟”按鈕。這對于采取激烈的行動是一個(gè)好主意,但它也讓組織在完全自動化響應(yīng)行動之前熟悉這個(gè)過程并驗(yàn)證他們的配置。無論哪種方式,我們的平臺都支持這樣做。
新領(lǐng)域:基于人工智能的自動化
最后階段是基于人工智能的系統(tǒng)。如果您認(rèn)為最后一步很重要,那么這遠(yuǎn)遠(yuǎn)不止于此。雖然圍繞人工智能的確切構(gòu)成顯然有很多不同的定義,但我們在這里使用該術(shù)語來定義可以做出自主決策的系統(tǒng)。這通常被稱為“AIOps”,它實(shí)際上只是將 AI 技術(shù)應(yīng)用于您的常規(guī)操作。
例如,系統(tǒng)可以查看從您的監(jiān)控平臺發(fā)出的警報(bào),并檢測到某種警報(bào)發(fā)生過于頻繁并且可能是誤報(bào),然后抑制這些警報(bào),或者修改您的設(shè)置以阻止它們正在發(fā)生?;蛘咚赡軙⒁獾教囟ㄈ罩鞠⑴c后來的應(yīng)用程序故障之間的相關(guān)性,并自動重新啟動一些服務(wù)以修復(fù)問題,因?yàn)樯洗伟l(fā)生應(yīng)用程序故障時(shí)這種方法有效。
理想情況下,人工智能管理系統(tǒng)將建立這些聯(lián)系,并可能根據(jù)了解您的環(huán)境以及其他客戶遇到的最佳實(shí)踐和場景采取行動。能夠決定允許哪些操作完全自主發(fā)生以及哪些操作需要操作員干預(yù)至關(guān)重要,尤其是在剛開始時(shí)。
人工智能大的潛在缺點(diǎn)是它驅(qū)動了非常高的資源需求,通常超出了您自己提供的實(shí)際能力。這通常意味著您需要一些云托管資源來提供幫助,以便對進(jìn)入系統(tǒng)的所有數(shù)據(jù)進(jìn)行分類,這將驅(qū)動連接依賴以實(shí)現(xiàn)完整功能。
關(guān)鍵 #1:利用現(xiàn)有系統(tǒng)
因此,自動化 IT 管理的第一個(gè)關(guān)鍵是確保我們充分利用發(fā)現(xiàn)和監(jiān)控自動化。顯然,這里的第一步是使用我們的自動發(fā)現(xiàn)工具來確保在配置新設(shè)備時(shí)將其添加到監(jiān)控中。
識別設(shè)備后,我們需要確保對它們進(jìn)行全面的監(jiān)控自動化,因此我們要確保識別出我們需要在這些系統(tǒng)上監(jiān)控的所有不同應(yīng)用程序或服務(wù)。
我們的平臺使用基于級聯(lián)模板的配置系統(tǒng),這使得這變得更加容易。使用級聯(lián)模板,我們可以將多個(gè)模板適當(dāng)?shù)貞?yīng)用于設(shè)備或應(yīng)用程序。
我們的自動發(fā)現(xiàn)方法采用三個(gè)并行路徑,因此不會遺漏任何東西。當(dāng)然,我們有可配置的子網(wǎng)掃描,因此我們可以在配置新系統(tǒng)時(shí)快速識別它們。這是大多數(shù)工具使用的傳統(tǒng)方法。
但是,我們還希望利用其他發(fā)現(xiàn)方法來提供更快或更詳細(xì)的信息,因此我們實(shí)現(xiàn)了與多個(gè)供應(yīng)商平臺的 API 連接,以便能夠在您將新的 Meraki 邊緣路由器上線時(shí)找到它們,或者快速開始監(jiān)控新的AWS 實(shí)例或新虛擬機(jī)。
我們還提供用于系統(tǒng)配置的開放入站 API,因此如果您使用 Puppet、Ansible 等部署自動化工具,甚至只是 python 腳本,您可以將監(jiān)控鏈接到該過程。
通過同時(shí)使用這三種方法,我們可以確保沒有遺漏任何東西,即使事情正在迅速或動態(tài)地變化,即使有人沒有按照他們應(yīng)有的方式準(zhǔn)確地遵循部署過程清單。
為了讓這個(gè)進(jìn)入下一階段,我們真的需要獲取發(fā)現(xiàn)的設(shè)備數(shù)據(jù)并確保它得到完全配置。如果檢測到新系統(tǒng)并將其添加到監(jiān)控中,這很有用,但如果我們沒有同時(shí)監(jiān)視關(guān)鍵應(yīng)用程序和服務(wù),或者如果我們沒有在出現(xiàn)問題時(shí)自動向正確的團(tuán)隊(duì)發(fā)送通知,那么它就無法獲得完全的可見性工作不正常。
我們解決這個(gè)問題的方法是使用我們稱為“自動配置”的功能。自動配置附帶一組規(guī)則來幫助您入門,并且可以輕松自定義或創(chuàng)建它們以適應(yīng)您的環(huán)境。您可以使用它們來設(shè)置設(shè)備屬性,例如基于任何設(shè)備標(biāo)準(zhǔn)的類別、站點(diǎn)和業(yè)務(wù)工作流——包括諸如正在運(yùn)行的進(jìn)程、打開的端口、設(shè)備的名稱,甚至是 SNMP 值。這可以確保沒有手動配置過程來確保設(shè)備最終出現(xiàn)在正確的報(bào)告中,并且它們始終應(yīng)用正確的設(shè)置。
這些會在設(shè)備被發(fā)現(xiàn)時(shí)自動應(yīng)用到設(shè)備,無論使用什么方法添加它們或它們在什么平臺上運(yùn)行,也可以自動重新應(yīng)用,或者根據(jù)需要重新應(yīng)用,所以如果你想確保一切都按照您想要的方式進(jìn)行配置,您可以強(qiáng)制執(zhí)行。
但是為了關(guān)閉自動化循環(huán),一旦應(yīng)用了屬性,我們的平臺就會動態(tài)地將所有相關(guān)模板應(yīng)用到您的設(shè)備上。這可確保在無需手動干預(yù)的情況下應(yīng)用您需要應(yīng)用于新設(shè)備的所有設(shè)置。
因此,例如,一個(gè)新的 SQL 服務(wù)器上線不僅會獲得您想要的基本 Windows 服務(wù)器設(shè)置,還會獲得特定于 SQL 的應(yīng)用程序檢查和設(shè)置,并且只要它出現(xiàn)問題,SQL 團(tuán)隊(duì)就會收到警報(bào). 我們還可以預(yù)先定義要查找和報(bào)告的事件日志,并設(shè)置我們想要觀察的性能指標(biāo)。
您可以使用模板來定義身份驗(yàn)證、升級、日志記錄警報(bào)、配置規(guī)則、主動響應(yīng)自動化操作等。它的設(shè)計(jì)足夠靈活,可以滿足全球企業(yè)客戶的需求,同時(shí)對于小型 IT 部門來說仍然足夠簡單,無需大量培訓(xùn)或?qū)B毴藛T即可使用。
關(guān)鍵 #2:自動化您的響應(yīng)
既然我們已經(jīng)自動化了配置新監(jiān)控的過程,那么自動化監(jiān)控的下一個(gè)級別包括自動化您的響應(yīng)。這允許您通過在設(shè)備上自動執(zhí)行命令或向您的應(yīng)用程序或云提供商發(fā)送 API 調(diào)用來在發(fā)生故障甚至異常時(shí)采取適當(dāng)?shù)拇胧?/p>
您可以鏈接 SSH 或 powershell 等 CLI 命令,或使用 Web 掛鉤等 API,以便您的監(jiān)控系統(tǒng)可以重新啟動端口、部署其他容器、重新測試應(yīng)用程序,甚至轉(zhuǎn)儲實(shí)時(shí)診斷以響應(yīng)事件。
有些人對自動執(zhí)行命令感到不舒服,因此如果您愿意,我們的平臺允許您通過操作員干預(yù)手動控制這些命令。這樣,如果您想將“單擊以重新啟動服務(wù)器”功能直接添加到監(jiān)控系統(tǒng)的 Web 界面中,并將訪問權(quán)限限制為管理員,那么有一種簡單的方法可以做到這一點(diǎn)。
一位客戶甚至將系統(tǒng)設(shè)置為在下班后自動重啟服務(wù)器,但只在工作時(shí)間通知 NOC,以便他們可以在有空時(shí)做出決定。
要記住的一個(gè)重要事項(xiàng)是,如果您要自動響應(yīng),維護(hù)窗口就變得非常重要。否則,計(jì)劃的軟件升級可能不會如您預(yù)期的那樣進(jìn)行,因?yàn)槟谋O(jiān)控系統(tǒng)開始在后臺采取行動。沒有什么比暫停應(yīng)用程序服務(wù)以進(jìn)行部署并讓服務(wù)器突然重新啟動更令人沮喪的了。不過,我們讓這一切變得簡單——您可以通過 Web 界面、移動應(yīng)用程序甚至 API 創(chuàng)建維護(hù)窗口,將其直接綁定到您的變更控制或故障單系統(tǒng)。
自動化事件響應(yīng)的一個(gè)關(guān)鍵部分是使用我們所說的“事件管理”。這就是我們所指的過程,它允許平臺了解復(fù)雜或高級的依賴關(guān)系,以達(dá)到零誤報(bào)的目標(biāo)。
這是一個(gè)基于規(guī)則的系統(tǒng),可讓您輕松覆蓋配置的操作,以發(fā)送自定義警報(bào)、抑制冗余警報(bào)或自動執(zhí)行特定響應(yīng)。這方面的一個(gè)例子是一個(gè)客戶,他有很多帶寬有限的遠(yuǎn)程零售點(diǎn)。一旦他們檢測到站點(diǎn)變得擁擠,他們就會安排電路升級,但這需要 30-45 天。因此,他們制定了一條規(guī)則,攔截該站點(diǎn)的任何帶寬或延遲警報(bào),并向分行經(jīng)理發(fā)送消息,讓他們知道他們知道問題,并且已經(jīng)下令升級 - 并設(shè)法將這些呼叫減少到他們的 NOC 80%。
您可以基于分組配置依賴關(guān)系——例如,如果您在站點(diǎn)上看到帶寬問題,您可以抑制同一位置的任何延遲警報(bào)?;蛘?,如果您正在運(yùn)行一個(gè)系統(tǒng)集群,您可以根據(jù)當(dāng)時(shí)其他集群成員的狀態(tài)采取不同的操作。
為了真正利用自動響應(yīng),我們要確保我們正在消除誤報(bào)以及發(fā)現(xiàn)隱藏的問題。檢測異常行為,而不是僅僅依靠靜態(tài)警報(bào)設(shè)置,是實(shí)現(xiàn)這項(xiàng)工作的關(guān)鍵方法。
在我們的平臺中,您可以使用我們的異常檢測功能來發(fā)現(xiàn)應(yīng)用程序行為的變化,它幾乎可以應(yīng)用于任何地方——CPU、內(nèi)存使用、正在運(yùn)行的進(jìn)程,甚至是日志消息。例如,如果您的應(yīng)用程序從每小時(shí) 10 次登錄失敗變?yōu)?1000 次,那么最后一次部署可能沒有您預(yù)期的那么順利,現(xiàn)在您可以開始進(jìn)行故障排除了。
我們將使用我們保留的大量歷史數(shù)據(jù)(通常默認(rèn)為 100 天的高分辨率數(shù)據(jù))自動生成基線行為模型,并且隨著您的環(huán)境動態(tài)變化和演變,我們將自動調(diào)整基線。可以根據(jù)觀察一天中的某個(gè)時(shí)間、一周中的某天甚至每小時(shí)的基線行為的變化來檢測異常情況。
這使您可以發(fā)現(xiàn)意外影響,例如導(dǎo)致后端 SQL 服務(wù)器上 CPU 出現(xiàn)異常行為的軟件更改。我們的一位客戶發(fā)現(xiàn)了一個(gè)問題,通常在周三上午 10 點(diǎn),數(shù)據(jù)庫服務(wù)器運(yùn)行在 50-60%,但突然以 15% 運(yùn)行。事實(shí)證明,前一天晚上推送到 UI 的更改將測試 API 密鑰放入應(yīng)用程序而不是生產(chǎn)密鑰,客戶無法完成他們的訂單。這種異常是一種不尋常的行為,永遠(yuǎn)不會觸發(fā)基于靜態(tài)閾值的警報(bào),但在這種情況下,早在他們注意到可能導(dǎo)致的訂單急劇下降之前就發(fā)現(xiàn)了一個(gè)問題。
關(guān)鍵#3:利用人工智能
即使在發(fā)現(xiàn)要監(jiān)控的新事物的過程自動化,并自動化設(shè)置所有監(jiān)控的過程之后,我們?nèi)匀恍枰ㄆ跈z查環(huán)境中發(fā)生的事情,調(diào)整以減少誤報(bào),并優(yōu)化我們的運(yùn)動配置。因此,為了達(dá)到自動化成熟度的第四階段,現(xiàn)在我們將利用人工智能和機(jī)器學(xué)習(xí)的力量來幫助我們保持環(huán)境的運(yùn)行和監(jiān)控。
第一階段是我們稱為 AI Autopilot 的自動管理工具,我們使用 AI 工具來評估我們的系統(tǒng)配置方式、我們使用的性能指標(biāo)和閾值,并分析它們在我們的環(huán)境中的執(zhí)行情況。本質(zhì)上,人工智能正在為我們查看報(bào)告,因此它可以提出建議或更改。
AI Autopilot 系統(tǒng)可以自動識別常見的配置問題或集成問題,例如查找身份驗(yàn)證憑據(jù)已更改且監(jiān)控系統(tǒng)未更新的系統(tǒng),并找到正確的系統(tǒng)并自動應(yīng)用它們——因此我們不會錯(cuò)過任何性能數(shù)據(jù)或警報(bào)。它還可以查看其他客戶正在做什么并制定最佳實(shí)踐建議,指出可能配置異常的事情或存在更優(yōu)化的監(jiān)控方式的地方,然后它可以提供建議,以便管理員可以應(yīng)用它們單擊一下,甚至自動部署更改。
由于這是完全自動化的,因此只需將其打開,并決定您是否希望它在進(jìn)行更改之前請求批準(zhǔn)。AI Autopilot 會檢查所有不同系統(tǒng)元素的配置,然后查找它可以優(yōu)化的東西、配置錯(cuò)誤或未正確集成的東西,或者以與最佳實(shí)踐相反的方式配置的東西,然后提供報(bào)告和建議,包括手動批準(zhǔn)過程(如果需要),然后自動將批準(zhǔn)的更改應(yīng)用于平臺內(nèi)的各種配置。
這有效地減少了培訓(xùn)和管理負(fù)擔(dān),并確保該工具可以為您的環(huán)境保持最佳配置,而無需大量時(shí)間投資。建議和最佳實(shí)踐會從云端不斷更新,以確保當(dāng)我們的客戶找到新的、更有效的做事方式或行業(yè)標(biāo)準(zhǔn)發(fā)生變化時(shí),您的平臺可以持續(xù)保持最新狀態(tài)。
人工智能開發(fā)的下一階段包括無需詢問即可生成自動報(bào)告的能力。因此,例如,如果系統(tǒng)檢測到存在看起來像容量問題的模式,即使您沒有安排自動運(yùn)行的容量規(guī)劃報(bào)告,它也可以生成并向您發(fā)送一份說明您可能會這樣做的原因想看看那些特定的系統(tǒng)或電路?;蛘咄扑]您所在行業(yè)的其他人認(rèn)為有用的報(bào)告,然后自動為您設(shè)置它們。
它還將包括優(yōu)化的主動響應(yīng),當(dāng)檢測到新問題時(shí),如果其他客戶已成功自動解決該問題,系統(tǒng)可能會根據(jù)對具有類似環(huán)境的其他客戶有效的操作向您推薦操作。
它還包括使用人工智能進(jìn)行高級類型的根本原因分析和事件關(guān)聯(lián)的能力,包括預(yù)測關(guān)聯(lián)。例如,“85% 的客戶在 1 天內(nèi) 10 次看到這種類型的日志消息,在 24 小時(shí)內(nèi)出現(xiàn)與高內(nèi)存利用率相關(guān)的服務(wù)故障”,然后提供可能防止該問題的選項(xiàng),例如安排服務(wù)重啟或服務(wù)器重啟。
當(dāng)前名稱:自動化的4個(gè)主要階段
標(biāo)題路徑:http://www.rwnh.cn/news13/325763.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)建站、網(wǎng)站設(shè)計(jì)公司、品牌網(wǎng)站制作、網(wǎng)站制作、品牌網(wǎng)站建設(shè)、移動網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容