HBase GC的前生今世

网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的paas服务，在线教育、远程医疗、娱乐秀
网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的paas服务，在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在，网易视频云的技术专家给大家分享一则技术文：hbase gc的前生今世－身世篇。
在之前的hbase blockcache系列文章中已经简单提到：使用lrublockcache缓存机制会因为cms gc策略导致内存碎片过多，从而可能引发臭名昭著的full gc，触发可怕的’stop-the-world’暂停，严重影响上层业务；而bucket cache缓存机制因为在初始化的时候就申请了一片固定大小的内存作为缓存，缓存淘汰不再由 jvm管理，数据block的缓存操作只是对这篇空间的访问和覆盖，因而大大减少了内存碎片的出现，降低了full gc发生的频率。那cms gc策略如何导致内存碎片过多？内存碎片过多如何触发full gc？hbase在演进的道路上又如何不断优化cms gc？接下来这个系列《hbase gc的前生今生》将会为你一一揭开谜底，这个系列一共两篇文章，本篇文章－’身世篇’将会带你全面了解hbase的gc机制，后面一篇－’演进篇’将会给你道出hbase在发展的道路上如何不断对full gc进行优化。
java gc概述
整个hbase是构建在jvm虚拟机上的，因此了解hbase的内存管理机制以及不同缓存机制对gc的影响，就必须对java gc有一个全面的了解。至于深入地理解java gc 的工作原理，不在本文的讨论范围之内；当然，如果已经对java gc比较熟悉，也可以跳过此节。
java gc建立在这样一个假设基础上的：大多数内存对象要么生存周期比较短，很快就会没人引用，比如处理rpc请求的buffer可能只会生存几微秒；要么生存周期比较长，比如block cache中的热点block，可能就会生存几分钟，甚至更长时间。基于这样的事实，jvm将整个堆内存分为两个部分：新生代（young generation）和老生代（tenured generation），除此之外，jvm还有一个非堆内存区－perm区，主要存放class信息以及其他meta元信息，内存结构如下图所示：
其中young区又分为eden区和两个survivor 区：s0和s1。一个内存对象在创建之后，首先会为其在新生代申请一块内存空间，如果这个对象在新生代存活了很长时间，会将其迁移到老生代。在大多数对延迟敏感的业务场景下（比如hbase），建议使用如下jvm参数，-xx:+useparnewgc和xx:+useconcmarksweepgc，其中前者表示对新生代执行并行的垃圾回收机制，而后者表示对老生代执行并行标记－清除垃圾回收机制。可见，jvm允许针对不同内存区执行不同的gc策略。
新生代gc策略 – parallel new collector
根据上文所述，对象初始化之后会被放入young区，更具体的话应该是eden区，当eden区满了之后，会进行一次gc。gc算法会检查所有对象的引用情况，如果某个对象还有被引用，表示该对象存活。检查完成之后，会将这些存活的对象移到s0区，并且回收整个eden区空间，称为一次minor gc；接着新对象进来，又会放入eden区，满了之后会检查s0和eden区存活的对象，将所有存活的对象移到s1区，再回收整个s0和eden区空间；很容易理解，s0和s1两个区总会有一个区是预留给下次存放存活对象用的。
整个过程可以使用如下图示：
这种算法称为复制算法，对于这种算法，有两点需要关注：
1. 算法会执行’stop-the-world’暂停，但时间非常短。因为young区通常会设置的比较小（一般不建议不超过512m），而且jvm会启动大量线程并发执行，一次minor gc一般都会在几毫秒内完成
2. 不会产生碎片，每次gc之后都会将存活的对象放入连续的空间（s0或s1）
内存中所有对象都会维护一个计数器，每次minor gc移动一个对象之后，都会为这个对象的计数器加一。当计数器增加到一定阈值之后，算法就会认为该对象生命周期很长，会将其移入老生代。该阈值可以通过jvm参数xx:maxtenuringthreshold指定。
老生代gc策略 – concurrent mark-sweep
每次执行minor gc之后，都会有部分生命周期较长的对象被移入老生代，一段时间之后，老生代空间也会被占满。此时就需要针对老生代空间执行gc操作，此处我们介绍concurrent mark-sweep（cms）算法。cms算法整个流程分为6个阶段，其中部分阶段会执行 ‘stop-the-world’ 暂停，部分阶段会和应用线程一起并发执行：
1. initial-mark：这个阶段虚拟机会暂停所有正在执行的任务。这一过程虚拟机会标记所有 ‘根对象’，所谓‘根对象’，一般是指一个运行线程直接引用到的对象。虽然会暂停整个jvm，但因为’根对象’相对较少，这个过程通常很快。
2. concurrent mark：垃圾回收器会从‘根节点’开始，将所有引用到的对象都打上标记。这个阶段应用程序的线程和标记线程并发执行，因此用户并不会感到停顿。
3. concurrent precleaning：并发预清理阶段仍然是并发的。在这个阶段，虚拟机查找在执行mark阶段新进入老年代的对象(可能会有一些对象从新生代晋升到老年代，或者有一些对象被分配到老年代)。
4. remark：在阶段3的基础上对查找到的对象进行重新标记，这一阶段会暂停整个jvm，但是因为阶段3已经欲检查出了所有新进入的对象，因此这个过程也会很快。
5. concurrent sweep：上述3阶段完成了引用对象的标记，此阶段会将所有没有标记的对象作为垃圾回收掉。这个阶段应用程序的线程和标记线程并发执行。
6. concurrent reset：重置cms收集器的数据结构，等待下一次垃圾回收。
相应的，对于cms算法，也需要关注两点：
1. ‘stop－the－world’暂停时间也很短暂，耗时较长的标记和清理都是并发执行的。
2. cms算法在标记清理之后并没有重新压缩分配存活对象，因此整个老生代会产生很多的内存碎片。
cms failure mode
上文提到在正常的情况下cms整个流程的暂停时间都是很短的，一般也就在10ms～100ms左右。然而这与线上的情况并不相符，线上集群在读写压力很大的情况下，经常会出现长时间的卡顿，有些卡顿甚至长达几分钟，导致很严重的读写阻塞，甚至会造成region server和zookeeper之间session超时，使得region server异常离线。实际上，cms并不是很完美，它会在两种场景下产生严重的full gc，接下来分别进行介绍。
concurrent failure
这种场景其实比较简单，假如现在系统正在执行cms回收老生代空间，在回收的过程中新生代来了一批对象进来，不巧的是，老生代已经没有空间再容纳这些对象了。这种场景下，cms回收器会停止继续工作，系统进入 ’stop-the-world’ 模式，并且回收算法会退化为单线程复制算法，重新分配整个堆内存的存活对象到s0中，释放所有其他空间。很显然，整个过程会非常’漫长’。但是这种问题也很容易解决，只需要让cms回收器更早一点回收就可以避免。jvm提供了参数-xx:cmsinitiatingoccupancyfraction=n来设置cms回收的时机，其中n表示当前老生代已使用内存占新生代总内存的比例，该值默认为68，可以将该值修改的更小使得回收更早进行。
promotion failure
假设此时设置xx:cmsinitiatingoccupancyfraction＝60，但是在已使用内存还没有达到总内存60%的时候，已经没有空间容纳从新生代迁移的对象了。oh，my god！怎么会这样？罪魁祸首就是内存碎片，上文中提到cms算法会产生大量碎片，当碎片容量积累到一定大小之后就会造成上面的场景。这种场景下，cms回收器一样会停止工作，进入漫长的 ’stop-the-world’ 模式。jvm也提供了参数 -xx: usecmscompactatfullcollection来减少碎片的产生，这个参数表示会在每次cms回收垃圾之后执行一次碎片整理，很显然，这个参数会对性能有比较大的影响，对hbase这种对延迟敏感的业务来说并不是一个完美解决方案。
hbase内存碎片统计实验
在实际线上环境中，很少出现concurrent failure模式的full gc，大多数full gc场景都是promotion failure。我们线上集群也会每隔半个月左右就会因为promotion failure触发一次full gc。为了更好地理解cms策略下内存碎片是如何触发promotion failure，接下来我们做一个简单的实验：jvm提供了参数 -xx:printflsstatistics=1来打印每次gc前后内存碎片的统计信息，统计信息主要包括3个维度：free space、max chunk size和num chunks，其中free space表示老生代当前空闲的总内存容量，max chunk size表示老生代中最大的内存碎片所占的内存容量大小，num chunks表示老生代中总的内存碎片数。我们在测试环境集群（共4台region server）将这个参数设置为1，然后使用一个客户端ycsb执行read-and-write操作，分别统计日志中free space和max chunk size两个指标随时间的变化情况。
测试结果如下图所示，其中第一张图表示total free space随时间的变化曲线图，第二张图表示max chunk size随时间变化曲线图。其中横坐标表示时间，纵坐标表示相应内存大小。
根据第一张曲线图可知，老生代总的空闲内存容量维持在300m~400m之间，当内存容量到达300m左右时就会进行一次gc，gc后内存容量就会又回到400m左右。而第二张曲线图会更加形象地说明内存碎片导致的promotion failure，刚开始随着数据不断写入，max chunk size会不断变小，之后很长一段时间基本维持在30m左右。在横坐标为1093那点，人为地将写入的单条数据大小由500byte变为5m大小，此后max chunk size会再次减小，当减小到一定程度之后曲线会忽然升高到350m左右，经过日志确认，此时jvm发生了promotion failure模式的full gc，持续时间约4.91s。此后一段时间full gc还在持续发生。
经过上述分析，可以知道：cms gc会不断产生内存碎片，当碎片小到一定程度之后就会基本维持不变，如果此时业务写入一些单条数据量很大的keyvalue，就有可能触发promotion failure模式full gc。
总结
本文首先介绍了两种常见的java gc策略，再接着介绍了cms策略可能引起两种模式的full gc，最后通过一个小实验说明了cms gc确实产生了内存碎片，而且会导致长时间的full gc发生。接下来《演进篇》会详细介绍从一开始hbase是如何针对cms进行优化处理的，敬请期待！
categories:更多技术交流，请关注我们进行交流与咨询哦！

HBase GC的前生今世－身世篇

VIP推荐

HBase GC的前生今世 － 身世篇

VIP推荐

HBase GC的前生今世－身世篇