分布式系统的SLA如何定义,世界第一的SLA长什么样?( 二 )


示例:公司早上8:00上班,7:30到8:00这30分钟的时间内用户需登录签到系统进行签到,公司员工总数为1000人,平均每一个员上登录签到系统的时长为5分钟 。

  • QPS = 1000/(30*60) 事务/秒
  • RT(平均响应时间为) = 5*60秒
  • 并发数= QPS*平均响应时间 = 1000/(30*60) *(5*60)=166.7
2.4 Latency(延迟)延迟(Latency),指系统收到用户请求到响应请求之间的时间间隔,在定义延迟的SLA时,常用p95和p99这样的延迟声明,这里的p指的是percentile,也就是百分位的意思,如果p95是1秒的话,那就表示在100个请求里面有95个请求的响应时间会少于1秒,而剩下的5个请求响应时间会大于1秒,P99同理 。
3. 世界第一SLA“长”什么样?3.1 世界第一的SLA评判标准和基本能力这里以业界领先的分布式系统 – 阿里云对象存储OSS为例,看看一个世界最顶级的SLA长什么样
3.2 阿里云对象存储OSS SLAhttp://terms.aliyun.com/legal-agreement/terms/suit_bu1_ali_cloud/suit_bu1_ali_cloud201803021527_93160.html?spm=ata.13261165.0.0.7fad7315pw7VWV
1. 定义
服务周期:一个服务周期为一个自然月 。
有效请求:OSS服务器端收到的请求视为有效请求,但不包括以下类型的请求:
(1)未通过OSS身份验证和鉴权失败的请求、欠费请求(HTTP状态码403的请求);
(2)跨区域复制(Region Replication)和生命周期管理(Lifecycle)的后端异步处理发起的所有请求;
(3)获取Bucket列表(GetService) 发起的所有请求;
(4)客户的应用程序受到黑客攻击而发起的请求 。
失败请求:OSS将HTTP状态码为5XX的请求和因为OSS服务故障导致的用户正常请求未能到达OSS服务器端的请求视为失败请求,但不包括以下类型的请求:
(1)因采用不适当的访问模式导致请求超出OSS的规定配额,造成请求被OSS限制的错误请求(HTTP状态码503的请求);
(2)跨区域复制(Region Replication) 和生命周期管理(Lifecycle)的后端异步处理的失败请求;
(3)获取Bucket列表(GetService)产生的失败请求;
(4)慢请求:
1)镜像回源超时的请求(HTTP状态码424的请求);
2)CallBack超时的请求;
3)UDF服务超时的请求;
(5)由OSS服务发起的合理升级、变更、停机而导致的错误请求或服务不可用情况;
(6)客户的应用程序受到黑客攻击而导致被OSS限制的请求 。
每5分钟错误率:根据地域及存储类型分别以每5分钟为单位按照如下方式计算:
每5分钟错误率 = 每5分钟失败请求数/每5分钟有效总请求数*100%
月度服务费用:按一个自然月中客户某一阿里云账号下OSS的地域及存储类型分别统计月度服务费用,如果客户一次性支付了多个月份的服务费用,则将按照所购买的月数或使用量比例分摊计算月度服务费用 。
2. 服务可用性
2.1 服务可用性计算方式
OSS服务可用性按服务周期统计,根据客户某一阿里云账号下OSS的地域及存储类型(标准型存储、低频访问型存储、归档存储)分别统计服务可用性 。若客户某一阿里云账号下存在相同地域、相同存储类型的多个Bucket,将合并计算服务可用性 。
服务可用性将根据服务周期内每5分钟错误率之和除以服务周期内5分钟的总个数计算出每5分钟错误率的平均值,按照如下方式计算:
服务可用性=(1-服务周期内∑每5分钟错误率/服务周期内5分钟总个数)*100%
(注:服务周期内5分钟总个数=12*24*该服务周期的天数)
2.2 服务可用性承诺

推荐阅读