如何做监控

创建:
更新:

如何做监控

监控:

  1. 什么是监控?
    1. 线上质量的一个实时检查
  2. 重要性
    1. 发现线上问题(早于用户)
    2. 快速止损、定位
    3. 及时发现隐藏的问题,指导策略优化
  3. 如何做好监控?
    1. 监控的流程及内容
      1. 监控需求提出
      2. 监控需求开发
      3. 监控需求测试
      4. 监控指标确认
      5. 监控报警添加
    2. 确认监控内容
      1. 新功能添加监控
      2. 补充监控
      3. 围绕
        1. 系统正确性
        2. 系统异常
        3. 异常定位
        4. 隐藏问题指导策略
    3. 监控数据获取
      1. 打点数据
      2. 日志数据
      3. 数据库数据
      4. redis 数据
    4. 监控报警添加
      1. 监控可视化
      2. 确定触发报警策略
      3. 确定报警频率
      4. 确定报警接收人
      5. 配置监控
    5. 监控处理
      1. 收到报警
      2. 问题跟进
      3. 问题周知
      4. 问题处理
      5. 定损
      6. 复盘 & casestudy
    6. 监控报警优化
      1. 漏报
        1. 不同报警类型
        2. 突升突降代替固定阈值
      2. 无效报警太多(准确率)
        1. 准确性提升
          1. 放大时间窗口,屏蔽预期内的单点抖动
          2. 工作日、节假日不同阈值
        2. 推送方式优化
          1. 连续失败
          2. 通知间隔
          3. 通知依赖
          4. 不同方式报警(短信、电话)
      3. 报警处理不及时
        1. 自愈脚本等
    7. 问题定位
      1. 流量分析
        1. 流量细分
          1. 行业
          2. 地域
          3. 机房
      2. 系统分析
        1. 线上出现报错、fatal、pvlost
        2. 例行上线功能影响
        3. 数据变更

监控发现有问题之后可以了解一下 如何追查线上问题


千里之行,始于足下
本站总访问量 本文总阅读量