智和信通助力某大型服飾集團建設綜合監(jiān)控運維
某服飾集團因信息化規(guī)模擴大,運維復雜。智和信通方案通過分布式部署、多品牌設備統(tǒng)一納管、告警管理及自愈、全自動化巡檢等,實現(xiàn)IT基礎設施全面集中管理,提升運維效率,保障業(yè)務穩(wěn)定運行。
? ? ? ? 某大型服飾集團成立于90年代,是廣受認可的國民生活時尚品牌,近年來隨著集團公司業(yè)務規(guī)模的不斷擴大,信息化作為支撐集團公司業(yè)務發(fā)展的重要技術手段,信息系統(tǒng)無論在規(guī)模上還是在復雜程度上均有了很大程度的增加。
項目現(xiàn)狀
? ? ? ? 當前信息系統(tǒng)龐大規(guī)模與復雜的結構,為數(shù)字中心的運維管理能力帶來極大挑戰(zhàn)。由于數(shù)字中心還是以分散的工具化產(chǎn)品、結合手工為主的運維模式,導致目前運維工作多是局部的、分散的,各項運維工作之間缺乏聯(lián)動,沒有形成整體的運維管理體系。
? ? ? ? 設備類型:交換機、防火墻、負載均衡、AC、無線AP、上網(wǎng)行為管理等。
? ? ? ? 設備品牌:華為、華三、思科、銳捷、戴爾、飛塔、F5、網(wǎng)康、深信服、優(yōu)特普、極進extreme、iKuai、博科brocade、山石網(wǎng)科、Radware、TP-LINK等
? ? ? ? 設備數(shù)量:2500臺
項目期望
? ? ? ? 面對運維現(xiàn)狀,數(shù)據(jù)中心期望有一整套完整的監(jiān)控運維平臺,實現(xiàn)對整個集團公司的IT基礎設施進行全面、集中管理。有效地從根本上解決運維工作中存在的基礎資源臺賬管理不統(tǒng)一、數(shù)據(jù)不準確,監(jiān)控手段有限、系統(tǒng)故障發(fā)現(xiàn)不及時,問題定位難、解決慢等突出問題。
- IT設備分布在多個城市的不同園區(qū),急需解決網(wǎng)絡架構、設備間鏈接關系無法可視化呈現(xiàn)的難題,清晰定位設備節(jié)點位置;
- 現(xiàn)有設備類型繁多,且隨著信息化的建設,設備類型和數(shù)量在不斷增長,更需要一款可擴展、可兼容不斷變化的設備的監(jiān)控運維產(chǎn)品;
- 實時監(jiān)測網(wǎng)絡流量,尤其是每個園區(qū)與互聯(lián)網(wǎng)連接的出口流量;
- 運維人員長期處于“救火”狀態(tài),出現(xiàn)問題往往耗時耗力地需要從頭排查,極易造成服務性能下降或業(yè)務停機時間偏長;
- 改善依靠部分運維管理工具和人工日常巡檢相結合的管理方式,釋放因IT資產(chǎn)增加而逐漸增大的運維壓力;
- 提升對網(wǎng)絡資源實際使用情況的實時感知能力,減少因性能瓶頸造成的業(yè)務緩慢、死機等被動響應的情況;
- 實現(xiàn)對業(yè)務系統(tǒng)從基礎硬件到上層服務的體系化監(jiān)控,定位業(yè)務異常根因。
智和信通方案
? ? ? ? 考慮到用戶復雜的網(wǎng)絡場景,智和信通確定采用分布式部署的方案進行平臺部署,在每個園區(qū)分別部署一臺采集服務器采集本園區(qū)內(nèi)設備的各類性能、故障信息;在IDC機房部署智和網(wǎng)管平臺進行全量集中管理。
跨地域多園區(qū)網(wǎng)絡集中管理、可視化展示
? ? ? ? 通過智能發(fā)現(xiàn)技術,將跨地域多園區(qū)中的IT設備自動發(fā)現(xiàn)出來,并以圖形化、具象化的拓撲形式展現(xiàn)設備間的聯(lián)動關系與實時狀態(tài)信息,幫助運維人員實時了解網(wǎng)絡架構及全網(wǎng)運行狀態(tài),快速感知資源、鏈路、流量等異常信息。
多品牌型號設備統(tǒng)一納管、差異監(jiān)控
? ? ? ? 在拓撲圖的基礎上,進一步展示設備的細節(jié),將用戶網(wǎng)絡內(nèi)不同類型、不同品牌、不同型號的設備統(tǒng)一納管,并根據(jù)用戶需求差異化配置監(jiān)控指標,指標包括但不限于以下內(nèi)容。
- 交換機:狀態(tài)、響應時間、運行時間、電源狀態(tài)、CPU使用率、內(nèi)存使用率、網(wǎng)口狀態(tài)、接收/發(fā)送流量、發(fā)送/丟包率、接收/發(fā)送帶寬使用率等;
- 防火墻:響應時間、CPU使用率、內(nèi)存使用率、溫度網(wǎng)口狀態(tài)、接收/發(fā)送流量、發(fā)送/丟包率、接收/發(fā)送帶寬使用率等;
- 無線AC:狀態(tài)、響應時間、運行時間、電源狀態(tài)、CPU使用率、內(nèi)存使用率、網(wǎng)口狀態(tài)、接收/發(fā)送流量、發(fā)送/丟包率、接收/發(fā)送帶寬使用率、AP指標等;
- 無線AP:狀態(tài)、響應時間、IP地址、設備名稱、接口數(shù)量、內(nèi)存大小、SSID、接收/發(fā)送流量、接收/發(fā)送帶寬、射頻傳輸重傳幀比率、射頻傳輸錯誤幀比率、射頻傳輸總幀數(shù)、關聯(lián)的站點總數(shù)、關聯(lián)失敗的站點總數(shù)、當前連接用戶數(shù)、當前斷開連接用戶數(shù)、成功驗證的用戶的在線時間等;
- 負載均衡:狀態(tài)、響應時間、運行時間、CPU使用率、內(nèi)存使用率等;
- 行為管理:狀態(tài)、響應時間、cpu使用率、內(nèi)存使用率、硬盤使用率、活躍用戶數(shù)、上線用戶數(shù)、高速緩存狀態(tài)、日志中心服務狀態(tài)
統(tǒng)一告警管理和故障自愈
? ? ? ? 方案通過統(tǒng)一的故障中心,將各個模塊中的監(jiān)控信息統(tǒng)一采集、分析,實現(xiàn)整個網(wǎng)絡中各種事件信息、設備故障、業(yè)務異常、流量異常等告警,以智能化手段進行標準化的分析、壓縮、并歸關聯(lián)等,通過站內(nèi)消息、郵件、釘釘?shù)姆绞綄崟r傳達告警信息,保證落實到指定人員進行處理。
? ? ? ? 與此同時,結合平臺的運維編排功能,通過拖拽編排的形式將用戶對常規(guī)告警的處置方式轉化為依托平臺的自定義工作流,在發(fā)生告警時,自動觸發(fā)處置流程,從而實現(xiàn)故障自愈。
IT設備全自動化巡檢
? ? ? ? 結合用戶真實的巡檢工作要求,自定義配置巡檢策略,細化巡檢范圍,自動執(zhí)行巡檢操作,并將巡檢結果通過郵件的形式推送給任務負責人,實現(xiàn)對設備的定期檢查。
設備異常trap和syslog轉告警
? ? ? ? 接收設備主動發(fā)送的各類事件與日志消息,集中存儲、解析處理后,將錯誤、告警、攻擊行為等異常信息轉化為告警,及時地通知用戶進行處置。通過統(tǒng)一界面集中管理事件與日志,提高其完整性和可追溯性,幫助用戶快速定位問題并采取相應的解決措施。
運營業(yè)務撥測與分析
? ? ? ? 通過構建業(yè)務分析模型,將集團內(nèi)部的供應鏈系統(tǒng)、郵件系統(tǒng)、物流系統(tǒng)、直播分析系統(tǒng)、OA系統(tǒng)等納入平臺進行撥測分析。部署可視化業(yè)務拓撲,將業(yè)務相關的基礎設施和應用可視化顯示并有效量化,將其狀態(tài)映射到他們所支持的業(yè)務上,直觀反映IT基礎設施的動態(tài)變化對業(yè)務造成的影響和威脅。
出口流量透視分析
? ? ? ? 將出口設備納入流量透視平臺,通過sFlow協(xié)議從設備、接口、IP、服務、應用、會話、協(xié)議層級進行實時監(jiān)測與回溯分析識別帶寬消耗較大的應用程序、服務、協(xié)議或 IP 地址,避免網(wǎng)絡容量過載,并提升最終用戶網(wǎng)絡體驗。
運維數(shù)據(jù)可視化和領導視圖
? ? ? ? 利用圖形、圖表、圖表等形式,直觀呈現(xiàn)網(wǎng)絡中運維數(shù)據(jù)分析、處理的結果,尤其是網(wǎng)絡專線大屏,動圖呈現(xiàn)專線線路的流入/流出速率、丟包率、延時、抖動等核心指標,為用戶提供網(wǎng)絡優(yōu)化的方向和依據(jù)。
應用價值
? ? ? ? 在部署智和網(wǎng)管平臺后,數(shù)據(jù)中心將集團內(nèi)交換機、防火墻、負載均衡、AC、無線AP、上網(wǎng)行為管理等IT設備進行集中管理,保障這些IT基礎設施及其支撐的各類業(yè)務系統(tǒng)長期穩(wěn)定運行。同時得益于智和網(wǎng)管平臺強大的模型庫擴展能力,數(shù)據(jù)中心實現(xiàn)了對不同品牌、型號設備在不同應用場景下的差異化監(jiān)控,不僅能夠實時對每臺設備的運行狀態(tài)進行關鍵指標的監(jiān)測,還可以通過預設告警閾值,及時捕捉并處理潛在性能瓶頸和故障風險,有效預防業(yè)務中斷。
? ? ? ? 在對用戶運維場景進行充分調(diào)研后,通過平臺內(nèi)自動化運維編排功能,通過編寫運維工作流,實現(xiàn)了日常巡檢、故障自愈、軟件升級、設備配置備份與恢復等日常運維任務,在極大地減輕運維人員負擔的同時,提高了工作效率,保障操作的一致性和準確性。
? ? ? ? 在保障監(jiān)控準確性的同時,智和信通也兼顧了用戶體驗,通過大量的數(shù)據(jù)分析和可視化功能,運維人員可以直觀地查看IT設備的性能趨勢、故障分布、業(yè)務系統(tǒng)健康度等關鍵數(shù)據(jù),為決策提供有力數(shù)據(jù)支撐。
? ? ? ? 展望未來,隨著集團信息化建設的不斷擴展和數(shù)字化轉型的逐步深入,數(shù)據(jù)中心也將面臨更多元化的挑戰(zhàn)。北京智和信通作為數(shù)據(jù)中心的一體化監(jiān)控平臺,也將持續(xù)引入更先進的智能技術,以更智能的方式預測并應對數(shù)據(jù)中心未來可能存在的風險,助力集團的IT基礎設施成為支撐業(yè)務持續(xù)發(fā)展的堅定基石。