您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息

基于新型存储的大数据存储管理

2022/7/27 11:44:05发布65次查看
1 引言
大数据已经成为目前的一个研究热点。如何改进现有的数据存储与管理技术或者设计全新的体系结构,以满足大数据应用中的大数据量和高速数据流实时处理需求,是大数据技术中的核心问题之一。如果采用传统数据库管理系统(database management system, dbms)的集中式数据存储方式,大数据存取性能就会受到极大的影响。hadoop技术虽然提供了对大规模数据的快速、低成本存储和管理,但它是一个离线、批量的数据处理系统,对于实时数据处理与分析的支持较弱,难以满足许多应用的要求。例如,在城市公共安全中,通常要求能够对高达每秒几千帧的高清监控视频流进行实时处理与分析。但目前在传统计算体系结构下,单台计算机只能支持每秒150~300帧的低分辨率图像实时异常事件检测。如果要做进一步的目标识别,根据目前的处理技术,性能将下降到每秒16帧左右,远远不能满足每秒几千帧高清图像的实时处理要求。因此,迫切需要研究能够满足大数据高效存储与实时处理的新型体系结构与新方法。
针对大数据高效存储与管理问题,目前除了hadoop技术之外,学术界和工业界也提出了一些其他的设计,包括以nosql数据库为代表的大规模分布式数据库系统设计、基于动态随机存取存储器(dynamic random access memory, dram)的内存数据库技术等。但现有的nosql分布式数据库技术仍以磁盘存储或者“磁盘+闪存(flash memory)”混合存储的方式存储数据,本质上还是传统的“cpu-dram-二级存储”的存储架构,依然存在着内存和磁盘之间的“存储墙”问题,难以从本质上解决大数据实时存取的问题。此外,由于dram能耗和成本较高,也限制了其在大规模数据处理中的应用。
过去5年来,闪存作为新型存储的代表性技术取得了快速发展,对现有的数据管理技术提出了极大的挑战,同时也带来了许多新的机遇.但是,闪存由于其存取方式(按页)、存取性能(1次存取通常需要约2[17个cpu时钟周期)的限制,仍适合作为二级存储器。基于闪存的数据管理只是优化了i/o延迟,并没有从本质上改变计算架构。
除了闪存之外,近年来另一种新型存储介质——相变存储器(phase change memory,pcm)引起了学术界和工业界的广泛关注。与闪存相比,pcm可以被cpu直接按位存取,而且存取性能更高。因此pcm可以与dram一样与cpu交互。但与dram相比,pcm存储具有非易失性,能够进行持久的数据存储。传统硬盘基于磁性存储机理存储数据,闪存基于微型电容储存电荷的机理存储数据,存储密度都有理论上限,而pcm基于微型相变单元存储数据的机理使其能够迅速超越固态盘的存储密度,并且在未来还有更大的提升空间。ibm公司把pcm这一类具有dram的存取性能,同时又具有持久存储能力的介质称为存储级主存(storage class memory,scm)。pcm等存储级主存以其非挥发、存储速度快、易实现高密度等技术特点,在高速与海量存储方面具有巨大的潜能,已被认为是下一代非易失存储技术的发展方向。另外,因该技术兼有dram的高速随机访问和闪存的非易失特性,模糊了主存和外存的界限,有望突破原有的存储架构,实现更高性能的存储。
因此,如果能够利用pcm等新型存储器件设计出适合大数据存储与管理的新型存储架构(如图1所示),同时设计新的分布式多节点存储技术,则可以将大数据存取集中在dram和pcm上,充分发挥dram和pcm的高性能特性以及pcm的随机存取和非易失优点,而且可以利用分布式多节点存储的优势建立高扩展的大数据存储系统,从而有望彻底解决大数据存取中的性能与容量问题,为大规模的大数据分析与应用提供有力的支撑。
图1 引入pcm等存储级主存后的存储体系结构
目前,公共安全、智能交通、物联网等许多应用都要求实现大数据的实时存取。但是,现有的hadoop等技术还很难达到这一目标,主要的困难在于无法提供低延迟、高吞吐的大数据实时存取能力。新型存储的出现为解决这一难题提供了可能。首先,pcm等非易失内存的出现为实现大规模的内存计算奠定了基础,使得人们有可能在内存中支持高并发的事务处理,而不需要传统dram导致的大量i/o操作,从而实现低延迟的大数据存取。其次,借助基于新型存储的分布式内存文件系统等技术,可以大规模提升外存和内存的写吞吐速率。
本文综述了基于新型存储的大数据存储管理技术,分析了现有大数据存储技术的局限性,介绍了新型存储的特点和发展概况,总结了基于新型存储的大数据存储架构、基于新型存储的大数据存储管理等方向的研究现状,在此基础上给出了基于新型存储的大数据存储与管理的若干未来研究方向。
2 大数据存储技术
2.1 常见的大数据存储技术
目前,大数据存储一般采用分布式存储技术,主要应用在nosql数据库系统中。现有的主流的nosql数据库系统,例如文档数据库系统mongodb、列存储数据库系统hbase、内存数据库系统redis等,均采用了分布式集群架构实现大数据的存储。也有一些分布式数据库系统在存储架构设计上考虑了异构存储的特性,例如ramcloud和rethinkdb,从而有效提升了系统的存取性能。
但是,现有的大数据存储技术还存在着以下的局限性。
以nosql数据库为代表的大规模分布式数据库系统设计了基于磁盘存储的读写方式、索引结构、查询执行、查询优化、恢复策略,但是磁盘固有的读写性能差等弊端限制了大数据存取尤其是大数据分析性能的提升。
在以hadoop分布式文件系统(hadoop distributed file system,hdfs)为代表的大规模分布式文件系统中,虽然它们提供了大数据的存储支持能力,但由于这些文件系统在设计时并没有考虑对实时、高性能的数据处理的支持,因此无法满足日益增长的大数据在线分析的需求。此外,随着数据量的急剧增加,元数据的大小也急剧增加,传统的元数据架构、元数据备份管理、元数据动态负载均衡等越来越难适应大数据应用需求。
基于dram的内存数据管理技术旨在通过海量的内存提高大数据的处理性能。但是,由于dram本身能耗高、价格相对昂贵,使得构建基于大内存的大数据存储集群在环境支持、成本上存在较大的困难。此外,dram的掉电易失特性导致的大数据环境下的数据一致性也是一个棘手的问题。
2.2 新型存储技术
鉴于磁盘存储、内存存储在面临大数据管理与分析时的困难,学术界和工业界开始将目光转向新型存储技术。目前,从技术成熟度和应用前景上看,闪存和相变存储器最有可能形成大规模应用,因此也吸引了国内外学者的关注。
闪存是一种可以被电子化擦除和重写的非易失性存储设备。基于闪存的固态盘(solid state drive,ssd)是目前市场上常见的闪存存储设备。与传统的磁存储介质相比,闪存具有传输速率高、低延迟、低能耗、低噪音、抗震等优良特性。同时也有一些特殊性质:写前擦除,对闪存的写操作不是简单地改变某个二进制位,而是需要将整个擦除块的所有二进制位置改为1,这带来了闪存的读写不对称性,一般采用异地更新的方式缓解写前擦除带来的延迟,减少读写不对称带来的影响;寿命限制,目前企业级闪存能耐受3万次写循环,消费级闪存仅为3 000次;读写与擦除的单位不一致,一个擦除块中包含若干个闪存页,擦除的单位是一个闪存擦除块,读写的单位是闪存页。
相变存储器是一种非易失类型的存储器,由硫系玻璃材质构成。由于这种材质的特质,通过施以电脉冲热,它可以在非晶态和多晶态这两种状态之间进行切换。pcm兼具速度快、耐用、非挥发性和高密度性等多种优势,其读写数据和恢复数据的速度是闪存的100倍。
随着云计算和物联网等新一代信息技术的涌现,对海量存储系统的低能耗、高速及高可靠性的需求日益凸显,以新型存储取代传统存储介质的呼声越来越高,而pcm有望成为未来新型存储的主要技术。与dram、闪存等存储介质相比,pcm具有非易失性、存取速度快、节能、可字节寻址、写寿命长等优点。韩国三星(samsung)公司与美国美光(micron)公司是目前在pcm技术方面较为领先的两家公司,其中三星公司开发出的65 nm制程、512 mb容量的pcm芯片已投入量产,并应用在三星公司的手机存储卡中;同时三星公司已经推出了20 nm制程、8gb容量的相变内存颗粒。美光公司已经成功研制了45 nm制程、1gb容量的lpddr2接口的pcm芯片产品,并已经量产。我国中国科学院上海微系统与信息技术研究所近年来也研制了中国自主知识产权的pcm芯片(8 mb),为研制我国自主产权的新型存储系统奠定了基础。此外,华中科技大学自2007年开始研究高密度低功耗的电阻式相变存储器、相变存储器功能芯片、相变存储器芯片的关键材料以及相关专用测试设备等,已经自主研制出具有简单读、擦、写功能的相变存储器功能芯片。
总体而言,传统的磁盘存储技术在大数据存储与管理方面面临着严重的性能瓶颈。内存数据管理技术由于价格、容量以及易失等特点难以作为pb级大数据存储的最终解决方案,但在大数据存储与管理中可以借鉴内存数据处理的一些思路。闪存、pcm等新型存储器件提供了高性能、非易失的数据存储支持。从目前的技术发展现状看,pcm是现有最为成熟,且性能、容量与dram最为接近的存储技术。pcm以其非挥发、存储速度快、易实现高密度等技术特点以及与cmos工艺兼容性好、易于与cpu集成形成片上系统(system on chip,soc)芯片等优点,具有广泛的应用前景。
3 大数据存储架构
新型存储的出现为构建新的大数据存储架构提供了可能。目前,学术界针对基于新型存储的大数据存储架构提出了多种设计,包括基于pcm的主存架构、基于闪存的主存扩展架构、分布式存储与缓存架构等。
3.1 基于pcm的主存架构
pcm与闪存相比,其存取延迟更短,而且可以直接按位存取,因此能够被cpu直接存取,更适合作为dram的扩展。与dram相比,pcm具有非易失性特点,因此适合存储文件等静态数据。总而言之, pcm可以看作兼有dram和闪存的优点。从存储架构设计的角度来看,pcm既可以作为主存使用,也可以作为外存使用。但由于pcm的可字节寻址特性(与闪存不同),目前学术界对基于pcm的主存架构研究相对较多。
在利用pcm替代dram方面,理论上可以有两种架构,即纯pcm主存架构和dram/pcm混合主存架构。在纯pcm主存架构中,pcm完全替代dram作为唯一的主存,而在dram/pcm混合主存架构中,dram和pcm共同作为主存。在后一种架构中,又存在着两种可能的设计:一是将dram作为pcm缓存的层次架构,另一种是dram和pcm并列的平等架构。目前,大多数的研究都假设dram/pcm的混合主存架构。研究者针对dram/pcm的混合主存架构,提出了多种pcm写操作优化以及负载均衡算法。由于pcm的写次数有限制,因此如何在混合主存中减少pcm上的写操作是目前的研究重点。
基于pcm的主存架构为实现大数据的实时处理提供了可能。首先,pcm的低能耗特性使得在集群系统中使用大量的pcm存储代替dram成为可能,从而降低系统成本。其次,pcm的持久存储特性可以通过设计有效的算法提高分布式存储环境中的数据一致性。第三,pcm的高密度特性可以为内存计算提供有力的支持。
3.2 基于闪存的主存扩展架构
闪存是目前相对较成熟的新型存储技术。基于闪存的ssd已经大量装备在服务器上,成为企业级存储解决方案中的重要组成。由于闪存的整体存取性能优于磁盘,因此理论上可以借助闪存提升大数据存储和管理的性能。在早期的一些研究工作中,研究人员往往假设未来存储系统中闪存可以完全替代磁盘作为外存,但是,由于闪存的读写不均衡特性以及寿命问题,目前实际的系统中往往是dram、闪存和磁盘共存。
在dram、闪存、磁盘共存的存储架构下,闪存通常作为主存的扩展,即作为dram和磁盘之间的中间层,提升大数据存取的性能。ssdalloc是基于闪存的主存扩展系统,它将闪存作为磁盘的缓存,实现了系统整体性能的提升。也有一些学者提出了将闪存作为虚拟内存,在dram容量不够的情况下,将闪存作为虚拟内存设备进行页面交换。由于闪存性能总体优于磁盘,因此这种以闪存作为虚拟内存的架构理论上在大数据应用场景下性能优于传统的dram+磁盘的架构。
对于大数据处理而言,基于pcm的主存扩展总体上比基于闪存的主存扩展更具可行性。这是因为大容量的闪存本身仍然采用按页存取的方式,与cpu按位存取模式之间存在不一致性,而且在存取性能上pcm也高于闪存,因此更有望减小与cpu之间的性能差距,构建能够充分发挥cpu、dram和pcm各自优势的高性能数据处理系统。
3.3 分布式存储与缓存架构
目前,基于分布式观点的数据管理是大数据存储与管理研究中的一个热点。一种观点是将闪存应用于分布式文件系统中进行元数据存储。元数据对于整个大数据管理系统的性能起着决定性作用,对于大数据解析、大数据统计、大数据操作优化等起着重要作用。基于闪存的分布式文件系统元数据管理的基本思路是在元数据服务器(metadata server,mds)上使用ssd作为存储设备加速文件系统,如参考文献在lustre分布式�...
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录