论文类的阅读与分析http://t.cn/zhfp5yj 云存储环境下的低成本虚拟机数据去重,hong tang与其在ask.tom的前同事现伯克利圣芭芭拉分校的tao yang合作撰写的论文,对于在云环境下的备份方式(sharding meta 信息),先计算指纹再去重,虽然整体算法上的改进不大,不过由于拆分+并行处理,总体的效率与开销还不错。
http://t.cn/zhf7hqo facebook推出的修正版rs code来缓解传统的rs code恢复导致的网络带宽问题,在基本的10+4的rs code模式下,他们平均每天会消耗180tb的网络带宽用于进行数据恢复,使用新的修正版rs code从理论上可以降低30%左右的网络带宽需求,主要思路为计算校验码时附带一份上一个条带的数据。
http://t.cn/zqzcowq murat demirbas对google spanner paper的解读(博客中有大量经典论文的解读), 重点解读了这篇论文章truetime api的实现与作用, 实现: 依赖于原子钟, 通过比较paxos以及2pc prepare的时间戳来获得snapshot time,作用: 简化snapshot read时的设计,实现类似于oracle闪回time->scn.
http://t.cn/zhfkakr velocity 2013 上几个不错的主题推荐, 除前几天已经发在微薄的部分内容,还有performance methodologies for production systems (brendan gregg),quantifying abnormal behavior(baron schwartz), a systematic approach to capacity planning in the real world (twitter)
统计与监控的分析http://t.cn/zqznfxc baron schwartz的新公司博客, 解释统计过程控制的4个基本规则,1.有指标超出3个标准差的范围,2.连续3个点中的2个在2-3个标准差之间,3.连续5个点中的4个在2个标准差之外,4.连续9个点在平均数的一侧. etsy的skyline(http://t.cn/zqznfxv与oculus参考了统计过程控制的方法论.
http://t.cn/zqqs4ot 为什么平均数不好使, 而百分位(percentile)却很好用. 在图中同时显示avg/min/max的图表, 没有显示50%,75%,90%等几个百分位的延时信息的图表, 后者可以显著的提高分析/定位问题的效率.
产品以及系统的设计使用.http://t.cn/zqzcdkp lars hofhansl 介绍hdfs(hbase同)的一个设计缺陷, 在极端情况下,当机房突然掉电时, hbase不仅可能丢失最新更新的数据, 如果刚好又在做compact,也可能丢失较早之前更新的数据,此文中给出了他们的解决办法,通过调整 参数dfs.datanode.sync.behind.writes和dfs.datanode.synconclose
http://t.cn/zqzpwtf oracle nosql database的访谈. 重点讨论了它的major/minor key的设计(个人比较喜欢此设计,非常接近于db sharding);master/slave的replication设计,通过paxos以及简单多数仲裁来确保写一致性;对avro序列化的支持(更好的json集成);支持简单转换后成为oracle的外部表,便于数据互通.
http://t.cn/zqzwraz 获得安静(没有输出)的slow query log在扩展性上就比较happy了. 作者的想法其实很简单, 大部分扩展性问题, 都是来自数据库的query效率不够, 尤其是query的索引设计不合理. 通过较好的sql设计, 较好的索引设计, 大部分公司的scalability都可解决. 还有一小部分,需要再配合sharding
对于技术的理解与方法论介绍http://t.cn/zqbkq2g 从brendan gregg角度看,成为专家的一些基本原则:1. 严谨,2.世上无难事,不过从时间上看,有代价,3.使用科学方法,并注意其假设,4.不要(轻易)信任任何事情,尤其是压测,os的指标也会撒谎,5.注意known knowns, known unknowns, and unknown unknowns的事情分类.
http://t.cn/zqboyj8 lessons from building and scaling linkedin by jay kreps . 很多经验都比较有参考意义. 1. scale 系统大部分都与scale state(或存储state的数据库)有关系,2. 如何scale内部的开发能力, 3. 如何scale 系统的规模, 4. 如何管理large scale的soa化的服务(service).
http://t.cn/zq55h2u theo认为当scale up是可行的时候(满足未来1-2年的需求), 就不应该做scale out.如果你的系统/项目的增长率低于摩尔定律, 应该始终考虑使用更大的机器(更好的廉价pc)来满足需求. scale out需要耗费大量的工程师资源来解决基础设施的问题, 而工程师资源应该用在更高效的地方.
to be truly excellent,one must treat it as a craft.one must become a craftsman.through experience learn discipline. and through practice achieve excellence. by theo. 《a career in web operation》
step 1,educate yourself,step 2,be disciplined,step 3,learn from & share with your peers,step 4,be patient.experience takes time(and mistakes). everyone in your organization needs operational mentality.operations is a state of mind it is a state of being it is a mentality.
http://t.cn/zqzyxn5 if you want to get the factor 50 speed-up of ssds, you’d better avoid reading large chunks of sequential data, because that’s where you can only gain a factor five improvement. 非常有洞见的一句话.
社科类http://t.cn/zhs11jl 【周其仁】还是没有“公平”,因为还有将来增加的人口。无论未来新生的,还是下嫁到下营村的人口,因为没参与此次财富分配的存量,一定会引起未来村民家庭之间财富的不均等。那就等着吧,为了未来的“起点公平”,人们只好在永无宁日的冲突中,等待着诞生永恒公平的土地制度。
http://t.cn/zjz0p4f “特定的社会结构决定了一套陈述是否为谎言或知识。换句话说,知识不是客观的,它首先依赖于它所在社会的权力结构,这样的权力结构” . “费孝通命题”,大意就是:你有什么样的社会结构,你就积累什么样的知识结构。【汪丁丁:谎言与知识 自由是整体之事】
社科书籍推荐丹.艾瑞里 《不诚实的诚实真相》 从行为学的角度分析, 人类为什么会不诚实, 在哪些场景下会不诚实, 如何通过规则的控制来降低人的不诚实程度.
贾森·弗里德 《重来》37signals的创始人介绍如何通过简单的思维来做系统的开发与处理,深入的内容,可以参考 @左耳朵耗子 的相关博客文章.
罗尔夫·多贝里 《清醒思考的艺术》 书中列举了52个人类常犯错误的思维陷阱,也即人类在认知上的一些缺陷,多读读有助于修正自己的思维缺陷。
related posts:
jame’s reading 10-14jame’s reading 09-10jame’s reading 06-28 原文地址:jame’s reading 07-25, 感谢原作者分享。
