网站首页 > 资源文章正文

系统设计基础知识(四)—系统可用性

qiguaw 2024-11-04 13:28:46 资源文章 22 ℃ 0 评论

系统可用性=可用性=正常运行时间÷（正常运行时间+停机时间）

SLI = 服务水平指标

它是企业最重要的指标。

服务的正常运行时间
交易数量
潜伏
错误率
吞吐量
响应时间
耐用性

SLO = 服务水平目标

它是围绕 SLI 构建的。它是指服务水平的目标值或目标范围。通常是一个百分比并与时间框架相关联。

90%（正常运行时间的 19）= 10% 的停机时间，这意味着过去 30 天中有 3 天

99%（2 个九的正常运行时间）= 1% 的停机时间，或过去 30 天的 7.2 小时停机时间

99.9%（3 个 9 的正常运行时间）=0.1% 停机时间，或过去 30 天的 43.2 分钟停机时间

SLA = 服务水平协议

企业与客户签订协议。

退还服务费
提供一段时间的免费服务

案例分析

假设我有一个网站http://xxx.com。从2022年1月1日运行到2022年3月15日，要求的数据如下：

1月份的请求总数为500，错误响应数为20
整个2月份的请求总数为600，错误响应数为10，停机时间为10分钟
从当前 3 月开始，请求总数为 400，错误响应数为 15。

那我算出来的SLI、SLO、SLA分别是多少呢？

SLI, 1 — (20+10+15)/(500+600+400) = 97%

SLO, 1 — (10/(74*24*60))=99.991%

SLA，如果服务商不能满足SLO未达到99.999%的协议条款，按照签订的SLA协议赔偿多少。

这是Google 同意向客户提供 Google Cloud Platform的协议条款。

理想情况下，SLI 应该直接衡量特定的服务质量。但是，在许多情况下，直接测量可能很难被观察和获得。因此，只能使用某种指标。延迟是最直接的监控指标。耐用性也是数据存储系统监控数据可以保持多长时间不变的重要指标。虽然不可能实现 100% 的可用性，但接近 100% 的可用性指标是可以实现的目标。运营专家经常使用数字 9 来描述可用性。例如，99% 的可用性称为“2 个 9”，99.99% 的可用性称为“4 个 9”。谷歌云计算服务当前的可用性指标是“3.5 个九”——99.95% 的可用性。

选择目标 SLO 并不是纯粹的技术活动，因为这里还涉及产品和业务级别的决策。SLI 和 SLO 的选择应该直接反映产品和业务级别的决策。现场可靠性工程师 (SRE) 应讨论可行性和风险并提供建议。这就是为什么了解系统的各种指标和限制很重要的原因。应该只选择足够多的 SLO 来覆盖系统属性。

在做出有关系统操作和维护的决策时，SLI 和 SLO 非常有用。

监控和测量系统的 SLI
比较 SLI 和 SLO 以决定是否需要采取措施
如果需要执行某项操作，则由决定具体需要执行什么操作才能实现目标
执行这些操作

例如，如果在第 2 步中，请求延迟正在上升，则将在几个小时内超过 SLO 而没有操作。第三步会测试服务器是否没有足够的CPU资源，并添加一些CPU来分散负载。如果没有 SLO，我们不知道是否（或何时）需要执行该操作。

SLA 要求业务和法律部门选择合适的后果条款。站点可靠性工程师的作用是帮助业务和法律部门了解满足 SLA 的 SLO 的概率和难度。谷歌保证该服务的年可用时间≥99.99%。此外，Google 保证在用户提出技术支持请求后 1 小时内第一时间响应，包括电话、电子邮件等。还附带大量奖励和补偿细节。

上一篇：什么是系统可用性?如何提升可用性?
下一篇：飞机和系统安全性中的“可用性”和“完整性”是什么意思?

网站首页 > 资源文章正文

系统设计基础知识(四)—系统可用性

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 资源文章 正文

系统设计基础知识(四)—系统可用性

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 资源文章正文

取消回复欢迎你发表评论: