? ? ? ? 企業(yè)數(shù)字化轉(zhuǎn)型以及5G、物聯(lián)網(wǎng)、云計(jì)算、人工智能等新業(yè)態(tài)帶動(dòng)了數(shù)據(jù)中心的發(fā)展,在國(guó)家一體化大數(shù)據(jù)中心及“東數(shù)西算”節(jié)點(diǎn)布局的推動(dòng)下,數(shù)據(jù)中心機(jī)房已成為各大企事業(yè)單位維持業(yè)務(wù)正常運(yùn)營(yíng)的重要組成部分,網(wǎng)絡(luò)設(shè)備、系統(tǒng)、業(yè)務(wù)應(yīng)用數(shù)量與日俱增,規(guī)模逐漸擴(kuò)大,一旦機(jī)房?jī)?nèi)的設(shè)備出現(xiàn)故障,將對(duì)數(shù)據(jù)處理、傳輸、存儲(chǔ)及整個(gè)業(yè)務(wù)構(gòu)成威脅,若機(jī)房設(shè)備出現(xiàn)故障不能及時(shí)被發(fā)現(xiàn)、處理,不但會(huì)影響整個(gè)業(yè)務(wù)系統(tǒng)的正常運(yùn)行,甚至可能使系統(tǒng)陷入癱瘓,造成嚴(yán)重后果和無(wú)法挽回的損失。
? ? ? ? 尤其對(duì)于銀行、稅務(wù)、證券、電信、電力、大型企業(yè)等企事業(yè)單位的機(jī)房,一旦系統(tǒng)發(fā)生故障,造成的損失更是不可估量,因此,數(shù)據(jù)中心機(jī)房實(shí)時(shí)監(jiān)控管理顯得更為重要。
第1章?IDC機(jī)房監(jiān)控內(nèi)容
? ? ? ? 北京智和信通作為自研廠商,核心產(chǎn)品“智和網(wǎng)管平臺(tái)”,通過(guò)實(shí)時(shí)監(jiān)控、遠(yuǎn)程配置等技術(shù)實(shí)現(xiàn)數(shù)據(jù)中心機(jī)房的自動(dòng)檢測(cè)、自動(dòng)報(bào)警、自動(dòng)修復(fù)等功能,從而達(dá)到無(wú)需人工干預(yù)的機(jī)房運(yùn)維狀態(tài),減少人為因素對(duì)設(shè)備運(yùn)行的干擾,并通過(guò)形象化的虛擬場(chǎng)景和真實(shí)數(shù)據(jù)相結(jié)合,增強(qiáng)機(jī)房設(shè)備、設(shè)施數(shù)據(jù)的直觀可視性、提高其利用率。
? ? ? ? 對(duì)于機(jī)房各項(xiàng)設(shè)施的監(jiān)控是保障數(shù)據(jù)中心穩(wěn)定運(yùn)行的重要環(huán)節(jié),其中涉及對(duì)機(jī)房環(huán)境、設(shè)備狀態(tài)、資源使用情況等多方面的實(shí)時(shí)監(jiān)測(cè)和分析預(yù)警。
第2章?IDC機(jī)房監(jiān)控指標(biāo)
? ? ? ? 方案可對(duì)IDC機(jī)房?jī)?nèi)環(huán)境系統(tǒng)、動(dòng)力系統(tǒng)、IT設(shè)備、安防系統(tǒng)進(jìn)行實(shí)時(shí)監(jiān)控和運(yùn)維,獲取最新運(yùn)行狀態(tài)。目前,已適配溫濕度、水浸、煙感等傳感器和UPS、攝像頭、門(mén)禁設(shè)備等關(guān)鍵裝置,并內(nèi)置多種監(jiān)控指標(biāo)。更多監(jiān)控資源和指標(biāo)也可通過(guò)靈活可配的模型庫(kù)進(jìn)一步擴(kuò)展適配。
? ? ? ? 方案支持用戶自定義擴(kuò)展監(jiān)控對(duì)象、監(jiān)控點(diǎn)及監(jiān)控指標(biāo)的方式,賦予用戶強(qiáng)大的適配能力,可自定義機(jī)房?jī)?nèi)各類子系統(tǒng)和設(shè)備的資源、故障監(jiān)視器、性能監(jiān)視器、TRAP監(jiān)視器等,極大地增強(qiáng)了平臺(tái)的靈活性和適應(yīng)性,最大限度地實(shí)現(xiàn)對(duì)IDC機(jī)房的管理和維護(hù)。
第3章?IDC機(jī)房實(shí)時(shí)監(jiān)控
? ? ? ? 方案通過(guò)智能算法自動(dòng)發(fā)現(xiàn)IDC機(jī)房中的各類設(shè)施,自動(dòng)生成網(wǎng)絡(luò)拓?fù)?,?shí)時(shí)監(jiān)控各項(xiàng)運(yùn)行指標(biāo),感知機(jī)房運(yùn)作狀態(tài),獲取潛在威脅。
3.1.智能發(fā)現(xiàn)IDC機(jī)房中的各類設(shè)施
? ? ? ? 在網(wǎng)絡(luò)可達(dá)范圍內(nèi),自動(dòng)獲取IDC機(jī)房中的各類設(shè)施的品牌、型號(hào)、監(jiān)控指標(biāo)等信息,并獲取IT設(shè)備間的連接關(guān)系。將機(jī)房中的IT設(shè)備、溫濕度、漏水、電源、電流電壓、煙霧、紅外、UPS、視頻監(jiān)控、精密空調(diào)及門(mén)禁等在同一平臺(tái)、同一界面進(jìn)行監(jiān)控。
3.2.2.5D機(jī)房、機(jī)柜拓?fù)?/strong>呈現(xiàn)
? ? ? ? 以2.5D的形式呈現(xiàn)機(jī)房?jī)?nèi)部場(chǎng)景,并以不同顏色圖標(biāo)展現(xiàn)機(jī)房?jī)?nèi)設(shè)備的實(shí)時(shí)狀態(tài)信息。
? ? ? ? 真實(shí)展示機(jī)柜及柜內(nèi)設(shè)備狀態(tài),直觀呈現(xiàn)機(jī)柜總U位數(shù),使用U位數(shù)以及剩余U位數(shù)。
3.3.實(shí)時(shí)監(jiān)控各項(xiàng)設(shè)施運(yùn)行狀態(tài)
? ? ? ? 全面采集IT設(shè)備、溫濕度、漏水、電源、電流電壓、煙霧、紅外、UPS、視頻監(jiān)控、精密空調(diào)及門(mén)禁等的使用情況、運(yùn)行狀態(tài)等核心指標(biāo)信息,支持按照時(shí)間、資源、性能類型等多種維度,圖形、表格等多種形式展示IDC機(jī)房整體可用性、機(jī)柜容量、機(jī)房?jī)?nèi)設(shè)施和IT設(shè)備的運(yùn)行性能等信息。
? ? ? ? 對(duì)實(shí)時(shí)、歷史性能數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,通過(guò)曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標(biāo)變化。也可選擇機(jī)房?jī)?nèi)多個(gè)傳感器、IT設(shè)備進(jìn)行同維度性能數(shù)據(jù)分析,提供可視化性能對(duì)比視圖。運(yùn)維人員能隨時(shí)把握性能變化態(tài)勢(shì),防患于未然。
3.4.無(wú)人值守的自動(dòng)巡檢
? ? ? ? 根據(jù)用戶特定需求與場(chǎng)景,定制IDC機(jī)房巡檢策略,設(shè)定巡檢頻率、時(shí)間及范圍等參數(shù)。平臺(tái)無(wú)需人工干預(yù),即可依據(jù)預(yù)設(shè)策略自動(dòng)執(zhí)行巡檢操作,對(duì)IDC機(jī)房整體、環(huán)境系統(tǒng)、動(dòng)力系統(tǒng)、IT設(shè)備、安防系統(tǒng)等的實(shí)時(shí)狀態(tài)進(jìn)行巡查,涵蓋故障、性能指標(biāo),收集信息數(shù)據(jù)并對(duì)其健康情況進(jìn)行分析,并自動(dòng)生成詳盡的巡檢報(bào)告。
? ? ? ? 將以往依賴人工手動(dòng)操作的日常巡檢轉(zhuǎn)變?yōu)樽詣?dòng)化、定時(shí)執(zhí)行的巡檢策略,定期對(duì)IDC機(jī)房進(jìn)行全面檢查,不僅有助于提前發(fā)現(xiàn)潛在問(wèn)題并采取預(yù)防措施,從而保障機(jī)房的穩(wěn)定運(yùn)行和高效管理,同時(shí)也能顯著降低人工巡檢所耗費(fèi)的時(shí)間與人力成本。
第4章 告警與日志管理
? ? ? ? 充分利用積累的有效定障、排障經(jīng)驗(yàn),打通基礎(chǔ)設(shè)施監(jiān)控、IP合規(guī)性監(jiān)測(cè)、流量透視、自動(dòng)運(yùn)維、運(yùn)維工單等關(guān)聯(lián)數(shù)據(jù),實(shí)現(xiàn)從告警檢測(cè)到排障恢復(fù)的全生命周期閉環(huán)管理。
4.1.日志與事件管理
? ? ? ? 主動(dòng)接收IDC機(jī)房?jī)?nèi)各類設(shè)施生成的事件與日志,諸如服務(wù)器宕機(jī)、網(wǎng)絡(luò)設(shè)備斷鏈、溫度傳感器報(bào)警、濕度傳感器報(bào)警、UPS電池耗盡、電源配電柜異常、煙霧探測(cè)器報(bào)警以及攝像頭藍(lán)屏等。通過(guò)統(tǒng)一的存儲(chǔ)與解析處理機(jī)制,將上述事件及日志信息按照統(tǒng)一的標(biāo)準(zhǔn)化格式進(jìn)行展示。并在檢測(cè)到關(guān)鍵事件或異常情況時(shí),自動(dòng)觸發(fā)告警機(jī)制,迅速通知相關(guān)人員,及時(shí)發(fā)現(xiàn)異常并精準(zhǔn)定位問(wèn)題根源。
4.2.智能告警管理
? ? ? ? 搭載多樣化的告警機(jī)制,并支持根據(jù)實(shí)際需求自定義配置告警閾值。用戶可根據(jù)設(shè)備型號(hào)、配置以及所承載的業(yè)務(wù)類型,靈活設(shè)置差異化的告警閾值,以滿足不同場(chǎng)景下的監(jiān)控需求。7×24小時(shí)不間斷監(jiān)控機(jī)房設(shè)備,實(shí)時(shí)監(jiān)測(cè)其性能指標(biāo)。當(dāng)設(shè)備性能指標(biāo)達(dá)到或超過(guò)預(yù)設(shè)的預(yù)警閾值,自動(dòng)觸發(fā)告警,提醒運(yùn)維人員關(guān)注設(shè)備的運(yùn)行狀態(tài)。
? ? ? ? 提供界面顏色變化、提示聲、光效閃爍、信息列表展示、Email、短信、釘釘、企業(yè)微信、個(gè)人微信等多種通知渠道,告警通知無(wú)延遲,告警渠道全覆蓋。告警通知實(shí)時(shí)性強(qiáng),可實(shí)現(xiàn)無(wú)延遲送達(dá),同時(shí)覆蓋所有主流通知渠道,以滿足不同用戶的多樣化需求,保障告警信息的及時(shí)傳達(dá)。
4.3.智能告警降噪
? ? ? ? 采用多種智能化告警降噪策略,包括自動(dòng)去重、告警風(fēng)暴抑制、關(guān)聯(lián)聚合、維護(hù)期時(shí)間屏蔽以及依賴關(guān)系屏蔽等。通過(guò)應(yīng)用AI智能算法,對(duì)各類告警信息進(jìn)行自動(dòng)化壓縮與收斂處理,有效減少無(wú)效告警的數(shù)量,抑制告警風(fēng)暴現(xiàn)象的發(fā)生。
? ? ? ? 在此基礎(chǔ)上,確保告警機(jī)制既能避免誤報(bào),也能防止漏報(bào),同時(shí)直接定位故障的根本原因,從而提升告警信息的準(zhǔn)確性和有效性。
4.4.運(yùn)維知識(shí)庫(kù)
? ? ? ? 將各類運(yùn)維操作實(shí)踐及故障判斷經(jīng)驗(yàn)整合并轉(zhuǎn)化為平臺(tái)內(nèi)部的知識(shí)資源,構(gòu)建團(tuán)隊(duì)知識(shí)庫(kù),涵蓋知識(shí)的存儲(chǔ)、檢索、更新、維護(hù)及審核等環(huán)節(jié),通過(guò)分類管理運(yùn)維工作中所需的文檔、操作指南、排障實(shí)踐、處置流程和配置信息等,實(shí)現(xiàn)知識(shí)的系統(tǒng)化管理。
第5章?運(yùn)維數(shù)據(jù)分析與展示
? ? ? ? 通過(guò)直觀的圖表和圖形化手段清晰有效地將運(yùn)維數(shù)據(jù)分析結(jié)果進(jìn)行傳達(dá),幫助用戶由宏觀和微觀更快地了解IDC機(jī)房運(yùn)行現(xiàn)狀,做出更具時(shí)效性的決策。
5.1.統(tǒng)計(jì)報(bào)表
? ? ? ? 提供自定義運(yùn)維數(shù)據(jù)報(bào)表功能,對(duì)機(jī)房運(yùn)行數(shù)據(jù)進(jìn)行深度挖掘與分析。用戶可根據(jù)自身需求靈活定義報(bào)表內(nèi)容,實(shí)現(xiàn)運(yùn)維數(shù)據(jù)的多樣化展現(xiàn)與統(tǒng)計(jì)分析。
通過(guò)生成可視化報(bào)告,將復(fù)雜數(shù)據(jù)轉(zhuǎn)化為直觀圖表和趨勢(shì)分析,從而提升運(yùn)維數(shù)據(jù)的利用效率,為決策提供有力支持。
5.2.運(yùn)維大屏
? ? ? ? 提供可視化數(shù)據(jù)分析能力及實(shí)時(shí)監(jiān)控畫(huà)面,通過(guò)大屏實(shí)時(shí)展示機(jī)房?jī)?nèi)各類設(shè)備(包括服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備、UPS、空調(diào)等)、系統(tǒng)(操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件等)以及機(jī)房環(huán)境(溫濕度、電力、水浸等)的運(yùn)行狀態(tài)和關(guān)鍵性能指標(biāo)。
? ? ? ? 運(yùn)維人員能夠迅速掌握機(jī)房的整體運(yùn)行狀況以及各類設(shè)備的實(shí)時(shí)狀態(tài)。例如,服務(wù)器的關(guān)鍵性能指標(biāo),包括CPU使用率、內(nèi)存使用率、磁盤(pán)空間剩余量、網(wǎng)絡(luò)設(shè)備的端口流量、機(jī)房環(huán)境的溫濕度等。以動(dòng)態(tài)圖表、實(shí)時(shí)流速圖、數(shù)字趨勢(shì)圖等形式,為運(yùn)維人員提供了清晰、實(shí)時(shí)的數(shù)據(jù)支持,便于快速識(shí)別和處理潛在問(wèn)題。
第6章?全場(chǎng)景自動(dòng)化運(yùn)維
? ? ? ? 將重復(fù)性且邏輯關(guān)系明確的運(yùn)維操作,如變更管理、擴(kuò)容操作、業(yè)務(wù)部署、監(jiān)控配置、故障恢復(fù)等,以組件化和策略化的形式托管至平臺(tái)中進(jìn)行集中維護(hù)與管理。用戶可根據(jù)實(shí)際需求從策略庫(kù)中選擇相應(yīng)的策略,以可視化拖拽的方式進(jìn)行編排,快速裝配成完整的運(yùn)維流程。通過(guò)觸發(fā)執(zhí)行,即可高效完成預(yù)期的運(yùn)維變更任務(wù),實(shí)現(xiàn)運(yùn)維工作的自動(dòng)化與標(biāo)準(zhǔn)化。
6.1.自動(dòng)化運(yùn)維──以故障自愈為例
? ? ? ? 以服務(wù)器實(shí)時(shí)監(jiān)控和日志、事件管理為基礎(chǔ),動(dòng)態(tài)發(fā)現(xiàn)網(wǎng)絡(luò)故障,智能判斷告警類型及級(jí)別,利用自動(dòng)化故障診斷和修復(fù)能力,實(shí)現(xiàn)常規(guī)故障自動(dòng)處置,特殊告警觸發(fā)升級(jí)與工單,最終實(shí)現(xiàn)故障恢復(fù),減少人工干預(yù),提高運(yùn)維效率。
? ? ? ? 下面以服務(wù)器磁盤(pán)爆滿自動(dòng)清理為例,介紹如何通過(guò)智和網(wǎng)管平臺(tái)實(shí)現(xiàn)服務(wù)器故障自愈。
效果要求:當(dāng)服務(wù)器磁盤(pán)使用率超過(guò)90%時(shí),觸發(fā)自動(dòng)清理策略,釋放磁盤(pán)空間。
? ? ? ? 第一步:將需要管理的服務(wù)器納入平臺(tái)進(jìn)行監(jiān)控,并將監(jiān)視器設(shè)置為磁盤(pán)使用率超過(guò)90%進(jìn)行嚴(yán)重級(jí)別告警。
? ? ? ? 第二步:進(jìn)入安管模塊的運(yùn)維編排菜單,創(chuàng)建磁盤(pán)爆滿自動(dòng)清理策略。根據(jù)真實(shí)排障過(guò)程,通過(guò)進(jìn)行策略節(jié)點(diǎn)拖拽編排的方式規(guī)劃自愈流程。
? ? ? ? 第三步,配置觸發(fā)方式,運(yùn)維編排支持手動(dòng)觸發(fā)、定時(shí)觸發(fā)、告警觸發(fā)等方式,根據(jù)策略內(nèi)容,我們選擇手動(dòng)觸發(fā)的方式。
? ? ? ? 編排流程配置完成后,設(shè)備出現(xiàn)對(duì)應(yīng)的嚴(yán)重級(jí)別告警后,立即觸發(fā)磁盤(pán)清理策略,自動(dòng)執(zhí)行編排內(nèi)的操作,對(duì)故障進(jìn)行校驗(yàn)和處置。并在執(zhí)行過(guò)程中,對(duì)每一步處置操作進(jìn)行記錄形成日志,確保有跡可查。
6.2.配置備份、對(duì)比與恢復(fù)
? ? ? ? 支持配置文件批量備份、下載、周期性備份、查看等,對(duì)IDC機(jī)房?jī)?nèi)設(shè)備的多個(gè)備份文件進(jìn)行對(duì)比。定期自動(dòng)對(duì)服務(wù)器配置進(jìn)行巡檢備份,并可進(jìn)行對(duì)比分析,為用戶管理網(wǎng)絡(luò)做出合理的建議提供數(shù)據(jù)支撐,支持進(jìn)行已備份配置間的對(duì)比分析和針對(duì)性的配置恢復(fù)。
第7章 機(jī)房資產(chǎn)全生命周期監(jiān)管
? ? ? ? 為解決IDC機(jī)房設(shè)備管理中的“脫管”或“半脫管”問(wèn)題,方案采取統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),對(duì)機(jī)房資產(chǎn)進(jìn)行全面梳理與調(diào)用。通過(guò)智和網(wǎng)管平臺(tái),將資產(chǎn)實(shí)物與運(yùn)維數(shù)據(jù)庫(kù)進(jìn)行一一對(duì)應(yīng),實(shí)現(xiàn)對(duì)IDC機(jī)房?jī)?nèi)網(wǎng)絡(luò)設(shè)備、機(jī)柜、UPS、網(wǎng)絡(luò)地址、機(jī)房布線容量等信息的集中管理。
? ? ? ? 這一措施不僅提升了資產(chǎn)信息的準(zhǔn)確性和完整性,還通過(guò)標(biāo)準(zhǔn)化管理流程,確保網(wǎng)絡(luò)設(shè)備的全生命周期得到有效監(jiān)控與維護(hù)。
第8章?方案應(yīng)用價(jià)值
? ? ? ? 北京智和信通IDC機(jī)房運(yùn)維方案通過(guò)智能化、自動(dòng)化和可視化的手段,顯著提升了機(jī)房的運(yùn)維效率、穩(wěn)定性和安全性,同時(shí)降低了運(yùn)維成本和風(fēng)險(xiǎn),為企業(yè)的業(yè)務(wù)連續(xù)性提供了有力保障。?
? ?面監(jiān)控與可視化管理
? ? ? ? 方案實(shí)現(xiàn)了對(duì)機(jī)房?jī)?nèi)網(wǎng)絡(luò)設(shè)備、UPS電源、環(huán)境系統(tǒng)、供配電系統(tǒng)、空調(diào)系統(tǒng)、門(mén)禁系統(tǒng)、視頻監(jiān)控系統(tǒng)等的全面監(jiān)管。通過(guò)形象化的虛擬場(chǎng)景與真實(shí)數(shù)據(jù)相結(jié)合,增強(qiáng)機(jī)房設(shè)備和設(shè)施數(shù)據(jù)的直觀可視性,幫助運(yùn)維人員快速掌握系統(tǒng)運(yùn)行狀態(tài)
? ?故障快速定位與自愈
? ? ? ? 通過(guò)智能告警機(jī)制和自動(dòng)化運(yùn)維功能,方案能夠快速定位故障根因,并觸發(fā)自動(dòng)化修復(fù)流程,減少人工干預(yù)時(shí)間,降低業(yè)務(wù)中斷風(fēng)險(xiǎn),保障業(yè)務(wù)的連續(xù)性。
? ?數(shù)據(jù)驅(qū)動(dòng)與決策支持
? ? ? ? 通過(guò)對(duì)機(jī)房運(yùn)行數(shù)據(jù)的實(shí)時(shí)采集與分析,方案生成可視化的報(bào)告和趨勢(shì)分析,為運(yùn)維決策提供數(shù)據(jù)支撐,幫助優(yōu)化資源配置,提升整體運(yùn)維效能。
? ?提升運(yùn)維效率與穩(wěn)定性
? ? ? ? 通過(guò)自動(dòng)化監(jiān)控和預(yù)警機(jī)制,實(shí)時(shí)機(jī)房中的IT設(shè)備、溫濕度、漏水、電源、電流電壓、煙霧、紅外、UPS、視頻監(jiān)控、精密空調(diào)及門(mén)禁等運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)并處理潛在問(wèn)題,避免故障的發(fā)生或擴(kuò)大,從而顯著提升機(jī)房的運(yùn)行效率和穩(wěn)定性。
? ?降低運(yùn)維成本與風(fēng)險(xiǎn)
? ? ? ? 通過(guò)自動(dòng)化巡檢、智能告警、故障自愈、配置備份與恢復(fù)等功能,減少了人工運(yùn)維的工作量,降低了運(yùn)維成本,同時(shí)通過(guò)預(yù)防性維護(hù)和故障自愈能力,降低業(yè)務(wù)中斷的風(fēng)險(xiǎn)。