笔者正好结合选题采访了NVIDIA,下面是回答:
随着人工智能类工作负载的流行,GPU已经成为数据中心的标配。无论是通过云还是在本地数据中心,各大公司在采用AI等技术的同时,计算的能耗也在日益提升。在我们的常识中,GPU是比CPU更加耗电。那么这是否意味着GPU会加大数据中心的能耗呢?
其实,对于AI工作负载,NVIDIA GPU的能效是传统CPU服务器的42倍。NVIDIA的HGX-A100云服务器平台将16个NVIDIA V100 Tensor Core GPU连接在一起,可作为单一巨型GPU运行,提供2petaflops的AI性能,创下了单台服务器AI训练算力的纪录。
在短短两年内,NVIDIA AI系统将在单一服务器上训练图像识别模型ResNet-50的时间从8小时减少至40分钟。随着AI采用的加速,NVIDIA的重点从训练转移到推理,使经过训练的模型能够在全球数百万台超大规模服务器运行的实时应用程序中运行。
NVIDIA的TensorRT推理软件甚至能够助力最大型神经网络在数据中心、嵌入式和汽车等多种应用中实时运行。A100比CPU快237倍。与其所取代的基于CPU的系统相比,配备NVIDIA GPU和TensorRT的超大规模数据中心占用的机架空间仅为其1/47,运行的能源成本降低了95%,同时还能提供运行所有AI模型的实用程序。