123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130 |
- // tag::main[]
- = 服务监控规范
- 获取整个系统的运行状态水平,对其变化和状态进行监控和报警,是保障系统监控运行必不可少的措施。
- == 监控指标
- === 服务器
- 主要为`基础监控指标` footnote:[基础监控指标, https://blog.csdn.net/peterwanghao/article/details/82784963]
- * CPU
- ** 使用率过高:连续 300s,80%。一般
- * 内存
- ** 剩余可使用空间不足:使用超过85%,剩余可用不足1G。
- * 磁盘
- ** IO 过高:连续 300s,队列超10,使用率80%。一般
- ** 使用率过高
- ** 剩余可使用空间不足:空间占用率超90%,可用不足20G。
- * 网络
- * 半连接数过高:超过3w
- * IO 过高:连续 300s,80%。一般
- * 时间
- ** 时钟跳变:超30s。提醒。
- ** 时区不一致
- ** 夏令时不正确
- === 中间件
- 基本状态监控:
- * 错误日志监控
- * CPU、内存、网络、磁盘IO 的使用
- * 连接数
- * 在线状态
- * 线程数
- * 句柄数
- ==== 网关和代理服务
- * 外部请求连接数(实时/累计)
- * 转发连接数
- ==== 缓存
- * 缓存数量
- * 类型
- * 趋势
- ==== 消息队列
- * 队列数
- * 消息数
- * 消费速率
- * 消费情况
- ==== 搜索引擎
- * 索引数量
- * 索引命中率
- ==== 数据库
- * 会话数
- * 慢SQL
- * 事务数量
- * 事务执行时间
- * 锁数量(按类型)
- === 微服务
- * 整体的磁盘、内存、CPU、网络占用
- * 特殊业务的CPU、内存、网络、磁盘IO、线程数量、失败数、处理速度、的使用
- * 所依赖第三方库的状态
- * 与所依赖中间件连接的使用和状态
- * 错误码出现频次
- == 通知方式
- * 短信
- * 邮件
- * 第三方应用:微信、钉钉
- * 广播
- == 故障等级分类
- === 极其严重
- 现象:
- * 服务器、数据库宕机;数据丢失、系统不断重启
- * 首页或核心功能无法使用
- 范围:所有业务、用户
- === 严重
- 现象:
- * 核心功能部分用户无法使用
- * 非核心功能大部分用户无法使用
- * 逻辑错误、内存泄漏、性能低下
- * 文案与法律法规不符、错别字
- 范围:部分业务用户、内部用户
- === 一般
- 现象:非核心功能无法正常使用
- * 次要功能逻辑错误
- * 显示格式/内容错误
- 范围:小部分用户
- === 较小
- 现象:
- * 部分用户的数据异常,但没有功能性影响
- * 操作步骤复杂,复现过程繁琐,一般不会发生的错误
- 范围:个别用户
- // end::main[]
|