您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

Tesla A100发布: 英伟达GPU架构如何演进?

2020/5/21 1:09:34发布143次查看

nvidia(英伟达)2020年度黑科技秀gtc 2020大会,近期通过在线视频的方式举办,发布了史上最强的gpu——nvidia tesla a100,全球最强ai和hpc服务器平台hgx a100、全球最先进的ai系统——dgx a100系统、orin soc系列自动驾驶芯片和全新drive agx平台。
tesla a100震撼全球,nvidia a100在ai训练(16位单精度操作,fp16)和推理(8位整数操作,int8)方面,gpu比voltagpu强大20倍。在高性能计算(双精度运算,fp32)方面,nvidia表示gpu的速度将提高2.5倍。
关于什么是int8,int8 指用8个位表示一个数字,fp32是指采用32位表示一个浮点数字,int8精度低,一般用于推理,但也有些优势。
优势1:int8能有效降低带宽,减少运算吞吐,提升计算能力,而精度损失低优势2:int8的乘加运算无论芯片面积还是能耗都优于fp32,fp16等。
a100 作为nvidia的第一个弹性多实例gpu统一了数据分析,训练和推理;并将被世界顶级云提供商和服务器制造商采用。
其中阿里云、aws、百度云、 谷歌云、微软azure、 甲骨文 和腾讯云计划提供基于a100的云服务;atos、cisco、dell、fujitsu、gigabyte、h3c、 hpe、 inspur、 lenovo、 quanta/qct 和 supermicro等系统制造商将基于a100推出服务器服务器。
a100借鉴了nvidia ampere架构的设计突破,在八代gpu架构中提供了该公司迄今为止最大的性能飞跃,统一了ai培训和推理,并将性能提高了20倍。a100是通用的工作负载加速器,还用于数据分析,科学计算和云图形。
ampere ga100是迄今为止设计的最大的7nm gpu。gpu完全针对hpc市场而设计,具有科学研究,人工智能,深度神经网络和ai推理等应用程序。nvidia a100 是一项技术设计突破,在五项关键技术领域得到创新和突破:
nvidia ampere架构  — a100的核心是nvidia ampere gpu架构,其中包含超过540亿个晶体管,使其成为世界上最大的7纳米处理器。基于tf32的第三代张量核(tensor core):   tensor核心的应用使得gpu更加灵活,更快,更易于使用。tf32包括针对ai的扩展,无需进行任何代码更改即可使fp32精度的ai性能提高20倍。此外,  tensorcore  现在支持fp64,相比上一代,hpc应用程序可提供多达2.5倍的计算量。多实例(multi-instance)gpu — mig是一项新技术功能,可将单个a100gpu划分为多达七个独立的gpu,因此它可以为不同大小的作业提供不同程度的计算,从而提供最佳利用率。第三代nvidia nvlink —使gpu之间的高速连接速度加倍,可在服务器中提供有效的性能扩展。结构稀疏性—这项新的效率技术利用了ai数学固有的稀疏特性来使性能提高一倍。
mig是一种gpu划分机制,允许将一个a100划分为多达7个虚拟gpu,每个虚拟gpu都有自己专用的sm,l2缓存和内存控制器。与cpu分区和虚拟化一样,此系统背后的思想是为在每个分区中运行的用户/任务提供专用资源和可预测的性能水平。
mig遵循了nvidia在该领域的早期工作,为虚拟图形需求(例如grid)提供了类似的分区,但是volta没有用于计算的分区机制。结果,虽然volta可以在单独的sm上运行来自多个用户的作业,但它不能保证资源访问或阻止作业占用大部分l2缓存或内存带宽。相比之下,mig为每个分区提供了专用的l2缓存和内存,从而使gpu的每个部分都完全完整而又完全隔离。

该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product