蓝鲸故障自愈介绍
在蓝鲸平台上,故障自愈是行业领先的"故障自动化处理"解决方案,提升企业的服务可用性和降低故障处理的人力投入,实现故障自愈从"人工处理"到"无人值守"的变革!通过自动化处理节省人力投入,通过预定的恢复流程让恢复过程更可靠,通过并行分析达到更快的故障定位和恢复。一句话概括:实时发现告警,预诊断分析,自动恢复故障,并打通周边系统实现整个流程的闭环。
对于大多数使用类似监控之类运维工具的企业,大多都是通过邮件或者短信发送告警通知,收到告警后,一般还需要运维人员人工介入处理。腾讯蓝鲸可以通过在蓝鲸平台配置企业微信,蓝鲸监控结合故障自愈神器,当故障发生时实时触发微信告警,并执行预诊断分析,自动恢复故障。同时,高危或重要操作可以加入人工审批功能。
本篇文章主要介绍蓝鲸平台下,微信告警网关的详细配置过程,下一篇文章会介绍如何在企业微信中实现故障自愈的人工审批。
环境
- 蓝鲸版本:企业版 2.2.9[社区版类似]
- 测试时间:2019年7月
前提条件
- 开通企业微信,点击跳转注册页面
- 可以通过公网直接访问蓝鲸平台,并且蓝鲸平台可以访问公网
企业微信配置
1. 使用管理员,通过web浏览器登录企业微信。登录地址:https://work.weixin.qq.com/wework_admin/loginpage_wx?from=myhome
注意:
- 打开链接后,通过移动端企业微信,扫描二维码登录。
- 使用管理员权限,普通用户无法登陆。
2. 查看最下方的“企业ID”字段
注意:记录“企业ID”字段的信息,待会儿配置微信网关的时候会用到。
3. 点击“应用与小程序”,填入关键字段信息,点击“创建应用”即可。
注意:
- 记录“AgentId”和“Secret”字段的信息,配置微信网关的时候会用到。
- 需要哪些用户通过企业微信收到告警通知,在“可见范围”中选择他即可。
4. 配置回调域名,点击下方的“企业微信授权登录”,对“Web网页”配置授权回调域。可以理解为,“允许该域名下的请求,访问企业微信的开发者接口。”
注意:对于蓝鲸平台来讲,回调域是“paas域名”+“端口”。
蓝鲸平台配置
1. 配置微信网关
打开蓝鲸Paas平台 -> 开发者中心 -> 通道管理 -> 蓝鲸消息管理 -> 发送微信信息
注意:使用管理员配置。
wx_type:微信类型,选择企业微信
wx_qy_corpid:企业ID字段信息
wx_qy_corpsecret:Secret字段信息
wx_qy_agentid:AgentId字段信息
2. 配置接受告警人员的企业微信账号
打开蓝鲸Paas平台 -> 个人中心 -> 绑定微信
注意:
- 现在是配置接收告警人员的账号,建议使用不要用admin用户。
- 需要接受微信告警的用户,将其蓝鲸账号,绑定对应的企业微信即可。
- 如果收不到微信告警,请检查企业微信中的“可见范围”,是否正确。
- 通过移动端的企业微信,扫描弹出的二维码,实现蓝鲸账户和企业微信账户绑定。
- 如果刚才配置企业微信的时候,没有配置回调域,此时可能会弹出“redirect_uri 与配置的授权完成回调域名不一致”的报错。如果遇到,请检查一下回调域,是否配置正确。
3. 配置告警策略
在蓝鲸监控、故障自愈中配置告警策略,使其通过微信发送告警。详细配置,此处不再赘言,可以参考蓝鲸监控白皮书 https://docs.bk.tencent.com/bk_monitor/Host_Monitor_Trigger_Old.html
注意:
- 要保证蓝鲸监控可以正常触发告警,如有异常,可以通过蓝鲸监控首页“近期告警时间中查看详情。
- 蓝鲸监控的默认的告警策略是发给“主机”的主负责人和备负责人。
测试验证
在蓝鲸监控中,手动触发告警,通过企业微信查看告警信息
至此,蓝鲸平台完成对接企业微信的配置。