分布式系统的SLA如何定义，世界第一的SLA长什么样？( 二 ) _云知道

示例：公司早上8：00上班，7：30到8：00这30分钟的时间内用户需登录签到系统进行签到，公司员工总数为1000人，平均每一个员上登录签到系统的时长为5分钟。

QPS = 1000/(30*60) 事务/秒
RT（平均响应时间为） = 5*60秒
并发数= QPS*平均响应时间 = 1000/(30*60) *(5*60)=166.7

2.4 Latency（延迟）延迟（Latency），指系统收到用户请求到响应请求之间的时间间隔，在定义延迟的SLA时，常用p95和p99这样的延迟声明，这里的p指的是percentile，也就是百分位的意思，如果p95是1秒的话，那就表示在100个请求里面有95个请求的响应时间会少于1秒，而剩下的5个请求响应时间会大于1秒，P99同理。
3. 世界第一SLA“长”什么样？3.1 世界第一的SLA评判标准和基本能力这里以业界领先的分布式系统 – 阿里云对象存储OSS为例，看看一个世界最顶级的SLA长什么样
3.2 阿里云对象存储OSS SLAhttp://terms.aliyun.com/legal-agreement/terms/suit_bu1_ali_cloud/suit_bu1_ali_cloud201803021527_93160.html?spm=ata.13261165.0.0.7fad7315pw7VWV
1. 定义
服务周期：一个服务周期为一个自然月。
有效请求：OSS服务器端收到的请求视为有效请求，但不包括以下类型的请求：
（1）未通过OSS身份验证和鉴权失败的请求、欠费请求（HTTP状态码403的请求）；
（2）跨区域复制（Region Replication）和生命周期管理（Lifecycle）的后端异步处理发起的所有请求；
（3）获取Bucket列表（GetService）发起的所有请求；
（4）客户的应用程序受到黑客攻击而发起的请求。
失败请求：OSS将HTTP状态码为5XX的请求和因为OSS服务故障导致的用户正常请求未能到达OSS服务器端的请求视为失败请求，但不包括以下类型的请求：
（1）因采用不适当的访问模式导致请求超出OSS的规定配额，造成请求被OSS限制的错误请求（HTTP状态码503的请求）；
（2）跨区域复制（Region Replication）和生命周期管理（Lifecycle）的后端异步处理的失败请求；
（3）获取Bucket列表（GetService）产生的失败请求；
（4）慢请求：
1）镜像回源超时的请求（HTTP状态码424的请求）；
2）CallBack超时的请求；
3）UDF服务超时的请求；
（5）由OSS服务发起的合理升级、变更、停机而导致的错误请求或服务不可用情况；
（6）客户的应用程序受到黑客攻击而导致被OSS限制的请求。
每5分钟错误率：根据地域及存储类型分别以每5分钟为单位按照如下方式计算：
每5分钟错误率 = 每5分钟失败请求数/每5分钟有效总请求数*100%
月度服务费用：按一个自然月中客户某一阿里云账号下OSS的地域及存储类型分别统计月度服务费用，如果客户一次性支付了多个月份的服务费用，则将按照所购买的月数或使用量比例分摊计算月度服务费用。
2. 服务可用性
2.1 服务可用性计算方式
OSS服务可用性按服务周期统计，根据客户某一阿里云账号下OSS的地域及存储类型（标准型存储、低频访问型存储、归档存储）分别统计服务可用性。若客户某一阿里云账号下存在相同地域、相同存储类型的多个Bucket，将合并计算服务可用性。
服务可用性将根据服务周期内每5分钟错误率之和除以服务周期内5分钟的总个数计算出每5分钟错误率的平均值，按照如下方式计算：
服务可用性=（1-服务周期内∑每5分钟错误率/服务周期内5分钟总个数）*100%
（注：服务周期内5分钟总个数=12*24*该服务周期的天数）
2.2 服务可用性承诺