一 、监控工具和数据源多样化
不同IT环境中使用了多种监控工具和数据源 ,每个款工具所采用的告警接入技术和数据处理格式各不相同 ,这导致了告警数据的分散和碎片化 ,使得告警管理变得复杂 。从集团统一化运维战略出发 ,结合运维实践 ,大圣科技亟需为应用运维建立统一处理告警的处理标准 。
二 、告警数据量多
监控工具产生的告警爆炸式增多 ,告警通知应接不暇 。包括许多重复冗余信息和噪音 。这些冗余告警使得运维团队无法快速筛选关键故障信息 ,难以识别真正的问题 ,影响了问题解决的效率 。
三 、故障升级不及时
业务系统(核心/重要/普通)的影响范围各不相同 ,源告警也有严重性区分 , 故障优化级应该根据告警的影响范围和严重性综合判断 、处理 、升级和通知 ,但当前监控工具缺乏的这样的升级能力 ,增加了人为判断的时间 。
一 、平台整体设计
对接CMDB系统 、对接GTS系统(工单系统) 、通知方式(企微 、飞书 、邮件 、钉钉) 、告警升级和排班管理 。
二 、数据集成-事件标准化
通过创建不同数据源的数据接入和数据规则处理 、数据统一规范 、数据关系表扩展等功能 ,实现对博睿自研监控产流品及市场主监控产品的异常事件数据接入和多源异构数据统一标准化处理 。
三 、告警收敛
针对海量异常事件 ,通过一系列规则进行降噪收敛处理 ,形成故障 ,实现对异常事件的归并处理 ,避免告警风暴 ,提升一线运维人员 、运维管理人员的工作效率 ,降低人力成本 。
四 、告警通知
运维部门都会有7*24小时值班制度 ,但不能每时每刻都在电脑前盯着故障列表 ,一是故障数量多 ,二是有些故障不需要快速响应 。一些重要的故障需要及时接收到并处理解决 。运维部门内不同的运维组负责处理的故障不同 ,平台产生的普通故障只需要向一线运维人员发送邮件通知 ,关注即可 。对于最高等级故障需通知到运维专责 ,关注严重的故障 。
一 、专业能力强
腾博会官网的智能告警能力符合大圣科技的运维要求
二 、技术创新能力有目共睹
国内首家 ,唯一通过信通院根因分析测评优秀级的厂商
一 、实现告警统一管理
多源事件统一接入 ,(从0-1建设)完整监控覆盖 ,实现告警统一管理
二 、提升运维人员工作效率
故障标准分析处理 ,提升工作效率 ,减少排查时间 ,提升运维人员工作效率 ,避免登录多套平台查看告警信息
三 、实现1人管理多套系统
海量告警智能收敛 ,降低故障分析的信息量 ,减少运维人员数量 ,达到降低运维成本 ,实现1人管理多套系统
四 、有效降低MTTR时间 ,由小时级转变成分钟级
故障通知高效传递 ,提高响应效率 ,与企微 、邮
件 、钉钉 、飞书及GTS对接 ,以及故障升级策略 ,通过多种方式通知 ,保障故障及时响应 ,降低MTTR时间 ,由小时级转变成分钟级 。