application resilience engineering and operations at netflix
by ben christensen
netflix的应用容错设计与运维
1. 随着系统规模的增大, 以及大规模soa化的部署, 服务本身的可靠性与时延成为系统的关键问题.
2. 由于上层的服务会依赖大量的下层服务, 上层服务的可用率与可靠性受到严重调整,假设下层服务的可用率为99.99,如果上层业务同时依赖30个下层服务,则上层的可用率为1- 30*(1-99.99%)=99.7%
3. 详细介绍了netflix的故障容错技术, 如何通过bulkheads/failfast/fail silent等方式隔离下层的故障对上层业务的影响,如何做到优雅降级.
4. 详细介绍netflix的监控大盘,每个组件的作用,具体的指标的处理,各种故障容错开关的状态.
bring the noise: making effective use of a quarter million metrics
by abe stanway
重点介绍etsy的监控系统,
1.收集大量的metrics,
2.如何保存这么大量的metrics,
3.如何通过算法快速的找到系统中的异常(anomaly detection),skyline系统
4. 如何通过系统的算法快速有效的分析有类似异常波动的系统,oculus系统
stop the guessing: performance methodologies for production systems
by brenden gregg
linux系统优化的方法论, 重点介绍gregg自己发明的use(utilization/saturation/errors)
guessing methodologies
- 1. traffic light anti-method
- 2. average anti-method
- 3. concentration game anti-method
not guessing methodologies
- 4. workload characterization method, 从治本的角度看,我喜欢使用这种方法,根据应用特征分析负载的来源.
- 5. use method, 从应急故障检测与分析来看,从处理效率角度看,这种方法很好,不过需要对linux的系统工具有相当深入的了解/理解.
- 6. thread state analysis method
quantifying abnormal behavior
by baron schwartz
施瓦茨从percona离开后,自己创建了一家专门做mysql监控与故障检测的公司, 这里介绍的内容与他们的产品有一定的关联.
1. 怎样判断系统有故障? 系统挂了? 指标超出阈值?
2. 阈值带来的困惑: 误报? 该报没报? 如何决策
3. 系统发生故障的场景: 宕机/死机是叫少见的(1% annual error rate?), 局部故障, 以及局部故障时间积累导致的故障蔓延.
4. 故障检测技术: shewhart control chart/滑动窗口/holt-winters预测/
5. 排队论基础的简要介绍(little’s law,gunter’s usl),
6. ewma, 基于权重的指数移动平均(load average的计算方法),
7. 一种可能/可行的正常性指标(anomaly,是否异常?): 基于ewma与ewmasos打分.
a systematic approach to capacity planning in the real world
by bryce yan
twitter的性能分析与容量规划实践.
1. 容量瓶颈的可能原因,从资源角度理解,主要为: cpu/ram/storage(disk iops/disk capacity)/network(interrupt/bandwidth)
2. 容量的应用维度来源, 业务请求的query per second/transaction per second/dml per second/活跃用户数
3. 找出容量阈值的方法: 人为制造压力/重放线上流量/实时线上流量引流
4. 容量规划的方法论:
收集系统指标: 平均数/标准差/95%th/99%th
具体技术: 移动平均/指数移动平均(load average的计算公式)/相关性分析/arima预测分析
reflecting a year after migrating to apache traffic server
by nick berry
linkedin 使用apache traffic server作为cdn的使用经验.
简要介绍了linkedin为什么选择使用ats.
迁移到ats的详细过程与迁移方法
在迁移过程中遇到的哪些问题,都是如何解决的.
traffic_logstat的的内容/实现以及对于他们运维带来的好处
no related posts.
原文地址:velocity 2013 上几个不错的主题推荐, 感谢原作者分享。
