ai服务器与普通的gpu服务器虽然组成上类似,核心计算部件都是gpu加速卡,但是不可等同,主要有以下几点区别:
1、卡的数量不一致:普通的gpu服务器一般是单卡或者双卡,ai服务器需要承担大量的计算,一般配置四块gpu卡以上,甚至要搭建ai服务器集群。
2、*设计:ai服务器由于有了多个gpu卡,需要针对性的对于系统结构、散热、拓扑等做专门的设计,才能满足ai服务器*稳定运行的要求。
3、p2p通讯:普通gpu服务器要求的是单卡性能,ai训练中gpu卡间需要大量的参数通信,模型越复杂,通信量越大,所以ai服务器除了要求单卡性能外,还要求多卡间的通讯性能,采用pci3.0协议通信的大p2p带宽达到32gb/s,采用sxm2协议通信的大p2p带宽达到50gb/s,采用sxm3协议通信的大p2p带宽达到300gb/s。
4、*技术:ai服务器有很多更*的技术,包括purley平台更大内存带宽,nvlink提供更大的互联带宽,tensorcore提供更强的ai计算力。
