A100、H800、H100、A800、V100大模型训练中的优劣对比

随着深度学习、高性能计算、大模型训练等技术的成熟与应用，人工智能发展步伐日益加快。各个厂商也都在紧锣密鼓的布局，如AMD ?MI300X 其内存远超120GB的英伟达GPU芯片H100，高达192GB

9月 7, 2023 — 服务器报价网

概述

随着深度学习、高性能计算等技术日新月异的进步，人工智能领域的发展步伐不断加快。全球各大企业和IT厂商都在争相布局，力求在市场竞争中占据优势。其中，AMD的MI300X芯片和英伟达的GPU芯片H100备受瞩目，其内存容量已达到120GB甚至高达192GB。

最近，英特尔（Intel）宣布，美国能源部阿贡国家实验室已成功完成新一代超级计算机"Aurora"的安装工作。这款超级计算机采用了英特尔的CPU和GPU，预计将在今年晚些时候上线。据悉，该计算机将提供超过2 exaflops的FP64浮点性能，超越美国能源部橡树岭国家实验室的"Frontier"，成为全球第一台理论峰值性能超过2 exaflops的超级计算机。Aurora超级计算机是英特尔、惠普（HPE）和美国能源部（DOE）的合作项目，旨在充分发挥高性能计算（HPC）在模拟、数据分析和人工智能（AI）领域的潜力。该系统由10624个刀片服务器组成，每个刀片都配备有两个英特尔Xeon Max系列CPU（至强Max 9480）和六个英特尔Max系列GPU。

在产品创新方面，英伟达近期发布了GH 200新产品，该产品包含36个NVLink开关，可将256个GH200 Grace Hopper芯片和144TB的共享内存连接成一个单元。此外，NVIDIA的A100、A800、H100、V100和H800等卡在大型模型训练中也广受欢迎。这些卡之所以广泛应用，得益于它们在处理大型数据时的高效性能。与此同时，国内厂商也在积极布局，力图在人工智能市场抢占先机。

一、英伟达大模型训练GPU全系列介绍
自OpenAI发布ChatGPT以来，生成式人工智能技术一直备受关注。这种技术需要强大的算力来生成文本、图像、视频等内容。在这个背景下，算力成为人工智能领域的必备条件，而英伟达作为芯片巨头在其中扮演着至关重要的角色。英伟达已经推出了多款用于AI训练的芯片，包括V100、A100和H100等。此外，为了符合美国标准，英伟达还推出了A800和H800这两款带宽缩减版产品，并在中国大陆市场销售。

NVIDIA V100是英伟达公司推出的高性能计算和人工智能加速器，采用Volta架构系列，拥有5120个CUDA核心和16GB到32GB的HBM2显存。V100还配备Tensor Cores加速器，可提供高达120倍的深度学习性能提升。此外，V100支持NVLink技术，实现高速的GPU到GPU通信，加速大规模模型的训练速度。V100广泛应用于各种大规模AI训练和推理场景，包括自然语言处理、计算机视觉和语音识别等领域。

NVIDIA A100是英伟达推出的一款强大的数据中心GPU，采用全新的Ampere架构，拥有高达6,912个CUDA核心和40GB的高速HBM2显存。A100还包括第二代NVLink技术，实现快速的GPU到GPU通信，提升大型模型的训练速度。此外，A100还支持英伟达自主研发的Tensor Cores加速器，可提供高达20倍的深度学习性能提升。A100广泛应用于各种大规模AI训练和推理场景，包括自然语言处理、计算机视觉和语音识别等领域.

在大模型训练中，V100和A100都是非常强大的GPU。以下是它们的主要区别和优势：

1、架构

V100 和 A100在架构上有所不同。V100采用Volta架构，而A100则采用全新的Ampere架构。Ampere架构相对于Volta架构进行一些改进，包括更好的能源效率和全新的Tensor Core加速器设计等，这使得A100在某些场景下可能表现出更出色的性能。

2、计算能力

A100 配备高达6,912个CUDA核心，比V100的5120个CUDA核心更多。这意味着A100可以提供更高的每秒浮点运算数(FLOPS)和更大的吞吐量，从而在处理大型模型和数据集时提供更快的训练速度。

3、存储带宽

V100的内存带宽约为900 GB/s，而A100的内存带宽达到了更高的1555 GB/s。高速内存带宽可以降低数据传输瓶颈，提高训练效率，因此A100在处理大型数据集时可能表现更出色。

4、存储容量

V100最高可拥有32GB的HBM2显存，而A100最高可拥有80GB的HBM2显存。由于大模型通常需要更多内存来存储参数和梯度，A100的更大内存容量可以提供更好的性能。

5、通信性能

A100 支持第三代 NVLink 技术，实现高速的GPU到GPU通信，加快大模型训练的速度。此外，A100还引入Multi-Instance GPU (MIG)功能，可以将单个GPU划分为多个相互独立的实例，进一步提高资源利用率和性能。

总的来说，A100在处理大型模型和数据集时可能比V100表现更优秀，但是在实际应用中，需要结合具体场景和需求来选择合适的GPU。

二、中国的各大厂商又是如何实现战略式布局

目前英伟达GPU的竞争激烈，海外巨头在GPU采购方面比较早，并且采购量更大，近年来的投资也相对连续，而中国的大型公司对于GPU的需求和投资动作比海外巨头更为急迫。以百度为例，今年向英伟达下单的GPU订单数量高达上万块。尽管百度的规模要小得多，去年的营收仅为1236亿元人民币，相当于Google的6%。然而，这显示出中国大公司在GPU领域的迅速发展和巨大需求。

据了解，字节、腾讯、阿里和百度是中国投入最多的AI和云计算科技公司。在过去，它们累计拥有上万块A100 GPU。其中，字节拥有的A100数量最多。不计算今年的新增订单，字节拥有接近10万块A100和前代产品V100。成长期的公司商汤也宣称，其“AI大装置”计算集群中已经部署了2.7万块GPU，其中包括1万块A100。即使是看似与AI无关的量化投资公司幻方，也购买1万块A100。

从总数来看，这些GPU似乎足够供各公司训练大型模型使用。根据英伟达官方网站的案例，OpenAI在训练具有1750亿参数的GPT-3时使用了1万块V100，但训练时间未公开。根据英伟达的估算，如果使用A100来训练GPT-3，需要1024块A100进行一个月的训练，而A100相比V100性能提升4.3倍。

中国的大型公司过去采购的大量GPU主要用于支撑现有业务或在云计算平台上销售，不能自由地用于开发大模型或满足客户对大模型的需求。这也解释了中国AI从业者对计算资源估算存在巨大差异。清华智能产业研究院院长张亚勤在4月底参加清华论坛时表示：“如果将中国的算力加起来，相当于50万块A100，可以轻松训练五个模型。”

AI公司旷视科技的CEO印奇在接受《财新》采访时表示，中国目前可用于大型模型训练的A100总数只有约4万块。这反映了中国和外国大型公司在计算资源方面的数量级差距，包括芯片、服务器和数据中心等固定资产投资。最早开始测试ChatGPT类产品的百度，在过去几年的年度资本开支在8亿到20亿美元之间，阿里在60亿到80亿美元之间，腾讯在70亿到110亿美元之间。

与此同时，亚马逊、Meta、Google和微软这四家美国科技公司的自建数据中心的年度资本开支最低也超过150亿美元。在过去三年的疫情期间，海外公司的资本开支持续增长。亚马逊去年的资本开支已达到580亿美元，Meta和Google分别为314亿美元，微软接近240亿美元。而中国公司的投资在2021年后开始收缩。腾讯和百度去年的资本开支同比下降超过25%。

中国公司若想长期投入大模型并赚取更多利润，需要持续增加GPU资源。就像OpenAI一样，他们面临着GPU不足的挑战。OpenAI的CEO Sam Altman在与开发者交流时表示，由于GPU不够，他们的API服务不够稳定，速度也不够快。

在获得更多GPU之前，GPT-4的多模态能力无法满足每个用户的需求。同样，微软也面临类似的问题。微软与OpenAI合作密切，他们的新版Bing回答速度变慢，原因是GPU供应跟不上用户增长的速度。

微软Office 365 Copilot嵌入了大型模型的能力，目前还没有大规模开放，只有600多家企业在试用。考虑到全球近3亿的Office 365用户数量，中国大公司如果想利用大型模型创造更多服务，并支持其他客户在云上进行更多大型模型的训练，就需要提前储备更多的GPU资源。

三、蓝海大脑大模型训练解决方案

蓝海大脑高性能大模型训练平台利用工作流体作为中间热量传输的媒介，将热量由热区传递到远处再进行冷却。支持多种硬件加速器，包括CPU、GPU、FPGA和AI等,能够满足大规模数据处理和复杂计算任务的需求。采用分布式计算架构，高效地处理大规模数据和复杂计算任务，为深度学习、高性能计算、大模型训练、大型语言模型（LLM）算法的研究和开发提供强大的算力支持。具有高度的灵活性和可扩展性,能够根据不同的应用场景和需求进行定制化配置。可以快速部署和管理各种计算任务，提高了计算资源的利用率和效率。

1、为什么需要大模型？

1）模型效果更优

大模型在各场景上的效果均优于普通模型

2）创造能力更强

大模型能够进行内容生成（AIGC），助力内容规模化生产

3）灵活定制场景

通过举例子的方式，定制大模型海量的应用场景

4）标注数据更少

通过学习少量行业数据，大模型就能够应对特定业务场景的需求

2、产品特点

1）异构计算资源调度

一种基于通用服务器和专用硬件的综合解决方案，用于调度和管理多种异构计算资源，包括CPU、GPU等。通过强大的虚拟化管理功能，能够轻松部署底层计算资源，并高效运行各种模型。同时充分发挥不同异构资源的硬件加速能力，以加快模型的运行速度和生成速度。