前端开发入门到精通的在线学习网站

网站首页 > 资源文章 正文

如何提高系统可用性和保证系统质量?

qiguaw 2024-11-04 13:29:00 资源文章 17 ℃ 0 评论

系统可用性差的主要原因有哪些?

整理总结下来主要有以下几个方面:

  1. 系统间依赖没有设置超时时间,导致资源耗尽;
  2. 系统发生频繁FGC、OOM、CPU负载过高等;
  3. 业务请求量激增,没有做好流量控制;
  4. 服务版本迭代进行发版过程中;
  5. 下游依赖发生故障;
  6. 系统硬件异常、磁盘故障、DNS故障、机房断电、光纤被挖坏、网络异常抖动等。

如何保证系统的稳定性?????

主要有4大利器:服务治理平台、全链路压测、故障演练和可观测系统。?

一般可分为事前、事中和事后。?????????

  • 事前:梳理全压链路或者混沌注入的目标,确定可观测指标大盘,预期结果???????。??
  • 事中:进行全压或者故障演练,并进行监控大盘观察???????。??
  • 事后:分析是否符合全压或者演练预期,在服务治理平台进行服务稳定性加固,比如核心服务要对接口进行限流、核心服务对下游弱依赖配置熔断器、合理的超时和重试配置以及兜底配置。?????????

系统质量保障手段又有哪些手段?

  1. Code Review
  2. 严格控制发布流程?
  3. 完善的监控报警机制???????
  4. 混沌工程???????
  5. 完备的SOP预案???????
  6. 故障Review???????
  7. 服务高可用架构Review????????

----------------------------
不断分享开发过程用到的技术,如果您也对IT技术比较感兴趣可以「关注」我,让我们共同学习,共同进步!

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表