monitor.adoc 2.4 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130
  1. // tag::main[]
  2. = 服务监控规范
  3. 获取整个系统的运行状态水平,对其变化和状态进行监控和报警,是保障系统监控运行必不可少的措施。
  4. == 监控指标
  5. === 服务器
  6. 主要为`基础监控指标` footnote:[基础监控指标, https://blog.csdn.net/peterwanghao/article/details/82784963]
  7. * CPU
  8. ** 使用率过高:连续 300s,80%。一般
  9. * 内存
  10. ** 剩余可使用空间不足:使用超过85%,剩余可用不足1G。
  11. * 磁盘
  12. ** IO 过高:连续 300s,队列超10,使用率80%。一般
  13. ** 使用率过高
  14. ** 剩余可使用空间不足:空间占用率超90%,可用不足20G。
  15. * 网络
  16. * 半连接数过高:超过3w
  17. * IO 过高:连续 300s,80%。一般
  18. * 时间
  19. ** 时钟跳变:超30s。提醒。
  20. ** 时区不一致
  21. ** 夏令时不正确
  22. === 中间件
  23. 基本状态监控:
  24. * 错误日志监控
  25. * CPU、内存、网络、磁盘IO 的使用
  26. * 连接数
  27. * 在线状态
  28. * 线程数
  29. * 句柄数
  30. ==== 网关和代理服务
  31. * 外部请求连接数(实时/累计)
  32. * 转发连接数
  33. ==== 缓存
  34. * 缓存数量
  35. * 类型
  36. * 趋势
  37. ==== 消息队列
  38. * 队列数
  39. * 消息数
  40. * 消费速率
  41. * 消费情况
  42. ==== 搜索引擎
  43. * 索引数量
  44. * 索引命中率
  45. ==== 数据库
  46. * 会话数
  47. * 慢SQL
  48. * 事务数量
  49. * 事务执行时间
  50. * 锁数量(按类型)
  51. === 微服务
  52. * 整体的磁盘、内存、CPU、网络占用
  53. * 特殊业务的CPU、内存、网络、磁盘IO、线程数量、失败数、处理速度、的使用
  54. * 所依赖第三方库的状态
  55. * 与所依赖中间件连接的使用和状态
  56. * 错误码出现频次
  57. == 通知方式
  58. * 短信
  59. * 邮件
  60. * 第三方应用:微信、钉钉
  61. * 广播
  62. == 故障等级分类
  63. === 极其严重
  64. 现象:
  65. * 服务器、数据库宕机;数据丢失、系统不断重启
  66. * 首页或核心功能无法使用
  67. 范围:所有业务、用户
  68. === 严重
  69. 现象:
  70. * 核心功能部分用户无法使用
  71. * 非核心功能大部分用户无法使用
  72. * 逻辑错误、内存泄漏、性能低下
  73. * 文案与法律法规不符、错别字
  74. 范围:部分业务用户、内部用户
  75. === 一般
  76. 现象:非核心功能无法正常使用
  77. * 次要功能逻辑错误
  78. * 显示格式/内容错误
  79. 范围:小部分用户
  80. === 较小
  81. 现象:
  82. * 部分用户的数据异常,但没有功能性影响
  83. * 操作步骤复杂,复现过程繁琐,一般不会发生的错误
  84. 范围:个别用户
  85. // end::main[]