sql server内存管理(转)
本文摘选自《the guru's guide to sql server architecture and internals》
introduction
在这篇专栏里,我们将从开发者的角度来探讨sql server内存管理内幕。就是说,我们将讨论sql server使用api和操作系统功能管理内存的方式及其工作原理。通过这种方式探讨一个产品,将有助于我们理解产品开发者的思路,以及他们所设计的使用方法。理解一个产品的工作原理和它的设计用途,是掌握这个产品的关键。
我们将从一些基础的windows内存管理基本原理介绍开始。和所有的32位windows应用程序一样,sql server使用windows内存管理功能分配、释放、管理内存资源。正如所有其它的windows应用程序,sql server调用win32内存管理api函数,与操作系统提供的内存资源进行交互。
由于sql server中几乎所有的内存分配都使用虚拟内存(不是内存堆),因此绝大部分内存分配代码最终都是通过调用win32的virtualalloc或者是virtualfree函数完成。sql server调用virtualalloc保留、提交分配的虚拟内存,调用virtualfree释放虚拟内存。
virtual memory vs physical memory
在x86系列处理器上,windows为所有进程提供一个4gb虚拟内存工作空间。用虚拟这个词,意思是这个内存并不是通常意义上的内存,它只是一个地址范围,并没有和物理存储单元关联在一起。当进程请求内存分配时,这些地址空间才被使用,和具体的物理存储单元关联起来。然而这些物理存储单元并不一定是物理内存,它通常可能会是磁盘空间,确切的说,是操作系统的分页文件(system paging files)。这就是为什么多个应用程序可以同时运行在一个128m内存的系统上,每个应用程序都有一个4gb的虚拟内存地址空间--它不是真正的内存,但对应用程序来说可以理解为内存。windows透明的处理paging files的数据拷贝,以使应用程序能够使用的内存可以超过机器的实际物理内存,并使应用程序能够公平的存取机器的物理内存。
这个4gb的地址空间被分成两部分:user mode部分和kernal mode部分。默认情况下,每个部分的大小为2gb,在windows nt系列的操作系统上,可以通过boot.ini中的开关来改变这个默认设置(windows nt, windows 2000, windows xp和windows server 2003属于windows nt系列,windows 9x和windows me不属于)。
图1:windows将进程的虚拟地址空间分成user mode(应用程序)和kernal mode(操作系统)两个部分
每个应用程序拥有自己的虚拟内存地址空间,但操作系统和设备驱动程序共享同一个私有地址空间。每一个虚拟内存页(memory page)都和特定的处理器模式(processor mode)相关联,为了存取某个虚拟内存页,处理器必须工作在要求的模式下。这意味着应用程序不能直接存取kernal mode的虚拟内存,系统必须切换到kernal mode才能存取kernal mode的内存空间。
application memory tuning
3gb启动选项(windows 2000的advanced server和datacenter及后续windows版本中可用)允许改变这两个地址空间部分的默认大小。它允许将进程的user mode地址空间从2gb扩展到3gb,相应的代价是kernal mode的地址空间从2gb减小到1gb。用windows的说法,这个功能叫做application memory tuning或者是4gb tuning(4gt)。你可以通过在boot.ini文件的[operating systems]部分添加/3gb开关启用应用application memory tuning。通常情况下,人们通过设置boot.ini文件的[operating systems]部分,将系统配置为可以使用3gb或者不使用3gb启动,以使在系统启动时可以进行选择。
警告:你也可以在windows 2000 professional和windows 2000 server上使用/3gb开关,这样做的负面结果是,将kernal mode的空间减小到了1gb,但并不会增加user mode的空间。换句话说,你减小了kernal mode的空间但并没有获得任何好处。
注意:windows xp和windows server 2003引入了一个新的启动选项/userva,和/3gb一起使用,比单独使用/3gb能够更好的控制。你在boot.ini中添加/3gb的时候可以同时添加/userva,/userva比单独使用/3gb的优点是它允许你指定一个准确的地址空间大小值供user mode存取。例如,/userva=2560为user mdoe配置2.5g的空间,剩余的1.5g用于kernal mode。上面的警告信息在使用/userva选项时同样适用。
large-address-aware executables
在/3gb支持加入windows之前,应用程序无法使用指针的最高位,user mode的应用程序只能够对32位指针的前31位表示的地址空间进行存取。对于剩下的1位,一些聪明的开发者不希望浪费进程空间里的这1个位,把它用于了其它的目的,例如用于标识那些应用程序特定的地址分配类型的指针。这在引入/3gb后带来一个难题,因为这种类型的应用程序无法区分引用2gb以上内存的指针,和那些引用2gb以下内存但是最高位由于其它原因而被设置的指针。基本上,使用/3gb启动机器,会使这样的应用程序崩溃。为了解决这个问题,微软在win32 pe文件格式(定义windows下可执行文件exe和dll结构的格式)的characteristics字段加入一个新标识位的支持,用于指示应用程序是否支持大的寻址能力。设置可执行文件头中characteristics字段的第32位启用image_file_large_address_aware标识位。通过设置应用程序头的这个标识位,表明应用程序能够处理那些最高位被设置的指针,不会由于这个位带来任何多意性。当设置了这个标识位,在正确的windows版本上使用/3gb选项启动,系统将为进程提供一个私有的扩展user mode地址空间。你可以使用dumpbin、imagecfg等可以分析可执行文件头的工具,查看应用程序是否启用了这个标识位。visual c++通过/largeaddressaware连接开关提供对image_file_large_address_aware的支持。sql server启用了这个标识位,因此当你在正确的windows版本上使用/3gb开关启动,系统将扩展sql server的user mode地址空间。
注意:windows在进程启动时检查image_file_large_address_aware标识,忽略dll的标识。对那些最高位被设置的指针,dll代码必须能够正确处理。
physical address extension
从pentium pro开始,intel处理器提供一种叫做physical address extension(pae)的内存映射模式。pae支持高达64gb的物理内存存取。pae模式下,内存管理单元(memory management unit - mmu)仍然实现了页目录条目(page directory entries - pdes)和页表条目(page table entries - ptes),但是在这个之上有一个新的层级:页目录指针表(page directory pointer table)。pae模式下系统能够寻址更大的内存,因为pdes和ptes为64位宽,是之前标准宽度的两倍,而并不是通过pae模式下的页目录指针表实现。页目录指针表把这些高存储容量的表和索引管理起来。使用pae模式需要一个特殊版本的windows内核,在windows 2000及后续版本中均有提供,单处理器机器上位于ntkrnlpa.exe中,多处理器机器上位于ntkrnlpamp中。和/3gb、/userva一样,在boot.ini文件中添加/pae启用pae模式。
address windowing extensions
widnows中的address windowing extensiongs功能允许应用程序存取超过4gb的物理内存。32位的指针是一个整型,只能够存储小于等于0xffffffff的值,因此只能够引用一个4gb的线性内存地址空间。awe使应用程序可以突破这个限制,存取所有操作系统支持的内存。
在概念上,awe并不是一个新的东西,实际上,从计算机诞生开始,操作系统和应用程序就围绕指针限制开始使用类似的机制来处理。例如回到dos时代,32位扩展(象phar lap、plinks及其它的一些)就普遍运用于16位应用程序,以存取正常地址空间之外的内存。用于扩展内存特殊用途的管理器、api非常普遍。也许你还记得象quarterdeck qemm-386这样的产品,在那个时代普遍的用于这类用途中。在这些允许指针存取超过本身表达范围的内存的机制中,具有代表性的方式,是在指针可直接存取的地址空间中提供一个窗口或者是区域,用于和指针无法直接存取的内存区域的转换。这正是awe的工作原理:在进程地址空间中提供一个区域,或者说一个窗口,用作和user mode的代码无法直接存取的内存区域进行内存存取交换的中专站。
为了使用awe,应用程序必须:(译者注:下面讲的需要存取的物理内存指那些user mode进程在自己的地址空间中无法直接访问到的内存)
1.使用win32的allocateuserphisycalpages api函数分配要存取的物理内存。该函数需要调用者具有将内存页锁定的权限。
2.使用virtualalloc api函数在进程的地址空间中创建一个区域,作为与需要存取的物理内存进行映射的一个窗口。
3.使用mapuserphysicalpages或者mapuserphysicalpagesscatter api函数,将需要存取的物理内存映射到这个虚拟内存窗口中。
windows 2000及后续版本支持awe,尽管可以在低于2g物理内存的机器上使用awe,但一般只是在2g或者超过2g内存的机器上使用,因为awe是32位进程存取超过3gb内存的唯一方法。如果你在低于3gb物理内存的系统上,在sql server中启用awe支持,系统会忽略这个选项并使用正常的虚拟内存管理方法。awe内存一个比较有意思的特性是它不会使用磁盘,你将注意到awe相关的api函数只对物理内存进行存取,这就是说awe内存就是物理内存,不会与系统分页文件发生交换。
用于awe提供的物理内存缓存的虚拟内存窗口,需要具有读、写存取权限,因此当你设置这个虚拟窗口时,传给virtualalloc的保护属性只能是page_readwrite。这也意味着你无法使用virtualprotect保护这个区域中的内存页,来防止被修改或存取。
注意:你常用的一些检测应用程序内存使用的工具,例如任务管理器、perfmon/sysmon等,都无法显示各个进程awe内存的使用量。并没有什么可以指示各个进程awe内存的使用量,也就没有什么可以报告给定进程工作区中awe内存的大小。
/3gb vs awe
在windows的内存管理功能中,application memory tuning(/3gb)可以给私有进程增加50%的地址空间,使用方便,因此成为一种常用方法,但awe功能更具有弹性和扩展性。前面提到,当你为私有进程地址空间增加1gb,这1gb来自kernal mode的地址空间,kernal mode地址空间也由2gb被压缩到1gb。对于kernal mode代码,完整2gb的工作空间已经显得狭窄,压缩这部分空间意味着某些内部核心结构也必须要压缩。这些结构中主要有机器上用于管理内存的表窗口(table windows)。当你将kernal mode部分压缩到1gb后,这个表最大就只能管理16gb的物理内存了。例如你在一台具有64gb物理内存的机器上运行windows 2000 datacenter,启动时使用了/3gb选项,你就只能够存取这台机器25%的内存,剩余的48bg将无法被操作系统和应用程序使用。awe允许你访问超过3gb的内存,而通过/3gb,你仅仅为私有进程空间获得额外的1gb。large address aware自动透明的使得这个额外空间对应用程序可用,但它被限制在1gb之内。理论上,awe通过win32 awe api函数,使得所有对操作系统可用的物理内存对应用程序可用。尽管awe更难于使用和存取,但它更具弹性和扩展。
并不是说任何情况下awe都比/3gb好,只是通常状况下是这样。比如说当你需要很多空间以分配内存,而又不能放在awe内存中(例如象线程栈thread stacks、锁内存lock memory、存储过程计划procedure plans等),你也许会发现/3gb更合适。
memory regions
sql server将分配的内存组织成两个独立的区域:bpool和memtoleave。实际上如果你使用awe模式,还有另外一个区域:在windows awe支持下可以存取的3gb以上的物理内存。
bpool在这三个区域中是比较突出的一个,它是sql server主要的分配池,主要用于数据和索引页的缓存,也用于小于8k的内存分配。memtoleave包含user mode地址空间中bpool没有使用的那部分虚拟内存空间。3gb之上的awe内存作为bpool的扩展,为数据和索引页缓存提供额外的空间。
当你启动sql server的时候,sql server基于机器的物理内存和user mode地址空间的大小计算bpool的上限。在计算出这个值后,memtoleave区域被保留,这有利于防止bpool随后的预留造成内存碎片。接下来,bpool被保留,它可以分成多达32个独立预留块,用于满足在bpool保留时sql server进程中那些正在请求虚拟地址空间的dll及其它分配请求。在保留bpool区域之后,memtoleave区域被释放。memtoleave用于sql server内部超过8kb的连续空间分配请求,以及象oledb provider、进程内com对象等外部客户(指sql server主要引擎之外,驻留在sql server进程中的那些内存请求者)分配请求。
因此,一旦sql server启动,bpool就被保留,但未被提交,memtoleave基本就是进程的虚拟内存地址空间中的空闲部分。如果你在sql server启动之后查看sql server进程的virtual bytes perfmon计数器,你将发现它反映的是bpool的预留。我曾经看到人们因为这个数字经常很高而惊慌,毕竟,它通常是机器总的物理内存或者是最大user mode地址空间,减去memtoleave区域大小。这没什么担心的,因为它仅仅是保留但没有提交的空间。之前提到过,保留的空间仅仅是一个地址空间,直到被提交时才会真正的和物理存储单元关联。在这些之后,被提交到bpool中的内存将会增加,直到达到sql server启动时计算出的bpool上限值。
monitoring sql server virtual memory use
你可以通过sql server:buffer managertarget pages perfmon计数器跟踪计算出的bpool最大值。sql server不同部分需要内存时,bpool提交一开始就被保留的8kb大小的页直到达到计算的上限值,你可以通过sql server:buffer managertotal pages perfmon计数器跟踪bpool中被提交的虚拟内存的使用状况。另外你可以通过private bytes计数器跟踪sql server进程中所有被提交的虚拟内存的使用状况。
因为sql server中绝大部分虚拟内存的使用都来自bpool,因此通常情况下,这两个计数器将一前一后的增加或平稳下来(记住,当启用awe支持后,private bytes计数器不会反映sql server全部的内存使用)。如果total pages计数器平稳下来,而private bytes持续增加,这通常表明memtoleave区域中连续的内存分配。这种内存分配可能比较常见,例如可能是sql server创建额外的工作线程时和线程栈相关的内存分配,或者是进程内com对象、扩展存储过程等外部请求者的内存泄漏等。如果由于内存泄漏或者内存使用过大,导致memtoleave区域耗尽,使sql server进程用完了虚拟内存地址空间的内存(或者是memtoleave区域中的最大空闲块低于0.5m的默认进程栈大小),就算是并没有达到使用sp_configure配置的最大工作进程数,sql server将无法创建新的工作进程。这种情况下,如果sql server需要创建一个新的工作进程来执行一个工作请求,例如处理sql server新的连接请求等,那么这个工作请求将被延迟,知道服务器有足够的资源创建工作进程,或者是其它工作进程被释放出来。这可能会导致用户无法连接到服务器,因为在从memtoleave中获得足够的空闲空间或者是其它工作进程被释放能够处理当前工作请求之前,连接可能会超时。
allocations
sql server中的内存请求者在初始化内存请求时,先创建一个内存对象管理当前的请求,当内存对象执行请求时,它调用sql server中相应的内存管理器从bpool或者是memtoleave区域获取内存。请求小于8kb时,通常从bpool中获取内存;当请求8kb或者更大的连续空间时,通常从memtoleave区域中获取。因为一个内存对象可能会产生多个分配请求,因此有可能会从memtoleave区域中分配小于8kb的分配请求。向sql server进程空间请求内存一般情况下都是内部请求者,就是说sql server的内部对象需要内存以执行某个任务,当然不是绝对的,象上面提到过的也有可能是外部请求者。通常,这些外部请求者使用win32内存api函数分配和管理内存,因此是从memtoleave区域中分配,因为(对于操作系统而言,译者注)sql server进程中只有memtoleave区域可用(bpool区域被sql server保留,译者注)。但对于扩展存储过程是个特殊情况,扩展存储过程调用ods的srv_alloc api函数实现,这使得它同sql server内部请求者被同等的处理,通常srv_alloc请求小于8kb的内存时从bpool中分配,大的内存分配则来自memtoleave区域。
the memory manager
服务器运行时,内存管理器进行检查,以确保为服务器预留了一定数量的可用物理内存,使windows和服务器上其它应用程序能够继续平稳的运行。这个数量从4m到10m左右(windows server 2003上接近10m),基于系统负载和bpool中内存页生命期得出。如果服务器上可用物理内存开始低于这个极限值,服务器释放bpool中的部分内存页,以收缩bpool的内存使用量(假设sql server的动态内存配置被启用)。内存管理器也确保任何时候保留了一定数量的空闲内存页,以使新的分配请求到达时,不必等待内存分配。这里的空闲,意思是指这些内存页被提交了,但是未使用。被提交但未被使用的bpool内存页通过一个空闲列表跟踪,当列表中的页被使用时,内存管理器从bpool的预留中分配更多的内存页,直到整个bpool预留被提交。你将看到process:private bytes perfmon计数器由于这个行为而逐渐的增长(通常是线性增长)。
系统中对应每一个cpu都有一个单独的空闲列表,当需要使用空闲页用于满足一个分配请求时,先检查和当前分配请求cpu相关的空闲列表,然后再检查系统中其它cpu相关的列表。这在多处理器系统上,有利于各个处理器更好的使用本地缓存,提高扩展性。你可以使用sql server:buffer partition perfmon计数器监控特定的bpool分区,通过sql server:buffer managerfree pages perfmon计数器监控所有分区的空闲列表。
整个运行过程中,sql server内存管理器进程(可能运行在内存管理器线程或其它服务器线程中)监控系统内存状态,为系统其它应用程序保留合理数量的空闲物理内存,为新的内存分配请求预留一个安全数量的内存页。当在服务器上使用awe时,其中的某些方面必须改变。在使用awe时,bpool一开始就获取并锁定机器的物理内存,锁定的内存数量根据是否设置了maximum server memory确定。如果设置了,bpool尝试锁定由maximum server memory确定的数量;如果没有设置,bpool只留出大致128m,供其它进程使用,锁定机器上其余的全部物理内存。然后,bpool使用3gb之上的内存(awe内存)作为数据和索引的分页文件(paging files),它将这些区域(3gb之上)的物理内存页映射到适当的虚拟内存地址空间中,使32位指针能够引用到。
作为一个丈夫和父亲的ken henderson,居住在德克萨斯州的达拉斯郊区。他是8本不同技术主题书籍的作者,包括最近发行的《the guru's guide to sql server architecture and internals》。ken henderson是达拉斯小牛队的球迷,业余时间喜欢看着他的孩子们玩闹,喜欢体育运动、园艺。
