AI大模型时代,为什么NVIDIA的系统方案独宠外置专业存储?
公孙欧爷  2024-08-02 17:05  发布于中国

上周刚刚召开的NVIDIA GTC 2024大会,已经成为IT业界影响力最大的会议。与会人员超过17000人,规模超过当年乔布斯的苹果发布会。在会上,NVIDIA发布了新的芯片、软件和方案,展示了在AI时代的绝对霸主地位和庞大的野心。

实际上,黄(仁勋)教主已经掩饰不住NVIDIA的野心了:在GPU市场占有率超过80%的NVIDIA,还发布了数据中心整体解决方案,力图主导这个超过1万亿美元的庞大市场。

不过,即使强如NVIDIA,在构建AI系统的时候,仍然选择了标配外置专业存储。虽然HBM(高带宽内存)取代了DDR内存,但是外置专业存储一直独立存在。就像当年雄霸天下的Oracle数据库,同样也是标配外置专业存储(EMC、华为等)。

642.png

注:2024 NVIDIA GTC大会期间,NVIDIA开设存储专场panel座谈,邀请业界头部存储厂商及大客户,共同研讨如何通过存储来解决AI时代面临的一系列挑战。

为什么存储对AI如此重要?NVIDIA为什么要广泛的与主流存储厂商合作,而不是自己做存储?我们将逐层展开,拨云见日,探寻背后的真相。

一、NVIDIA不仅仅想卖芯片,其野心是卖整个数据中心方案,以GPU+CUDA为核心构建了AI数据中心全栈架构,其中标配外置专业存储。

我们都知道,数据中心IT堆栈中,计算、存储和网络是三大核心组件。在计算侧,NVIDIA通过自研GPU和DPU来加速取代CPU算力;网络侧,NVIDIA通过收购Mellanox,加速推广IB网络;存储侧,广泛与主流存储厂商合作(DELL EMC/NetApp/Pure Storage/DDN/IBM/Vast Data/WEKA。。。),从OVX(数据中心推理)、DGX basepod(企业AI训练集群)到DGX superpod(大规模训练集群)再到DGX supercomputer(超大规模训练集群),不变的是里面都标配外置专业存储。

二、为什么在NVIDIA的方案架构中,外置专业存储是“必配品”?

1.AI和传统应用不同,传统应用主要是产生数据并存下来;而AI自身新产生的数据很少,主要是利用现有的存量数据,即“喂数据进去,吐出来的是训练好的大模型和token(标记)”。

2.缺数据,无AI。数据的质量决定了AI的高度。AI需要大量的高质量数据从哪里来?最普遍的做法是首先获取大量的互联网公开数据作为基础性输入,然后最核心的还是结合企业内部的数据,包括核心生产数据和历史存量数据对模型进行训练。

3.当今企业80%以上的数据仍存放在数据中心,其余少量在边缘和云上。在数据中心,专业的外置存储是企业数据的核心载体。因此,只有将NVIDIA AI系统与外置存储相连,才能快速形成数据的闭环,支撑AI大模型的训练。而在大模型完成训练,面向行业应用落地的时候(如RAG推理),AI应用必须与生产存储相连接,直接调用企业生产数据。因此,无论在大模型的训练阶段,还是行业应用推理阶段,AI系统都必须配套外置专业存储,才能让企业数据,特别是生产数据直接变成AI的“燃料”。

4.随着AI大模型的加速迭代,参数规模和数据量成万倍的增长,如何快速做好EB级数据的加载和准备,把数据快速喂给大模型成为提升训练效率的瓶颈之一;同时,在训练过程中需要不断保存checkpoint,以便因故障中断/训练效果不达预期时重新训练,对checkpoint的保存和读取速度也极大了影响了训练效率。而外置存储从诞生之初就是为了解决数据的保存和读取问题,外置存储的一小步性能优化,对AI系统的训练效率有巨大的提升,这也是NVIDIA系统选择外置存储的一大原因。

5.而在行业应用推理阶段,由于场景众多、AI新应用层出不穷,如何为解决数据pipeline成为关键问题。主流存储厂商均提供跨边缘、数据中心和云的数据流动、统一管理和数据加速功能,简化了AI应用对数据的访问和处理过程,让大模型应用部署和运行更加简单高效。

三、既然存储这么重要,为什么NVIDIA自己不做存储,或者像网络一样直接收购一家存储厂商,而是坚定的与主流存储厂商开展合作?

1.IT产业,全栈通吃不是主流,没有一家厂商可以搞定全部的客户需求,封闭架构无法持久,分层合作才是关键。NVIDIA瞄准的是整个AI数据中心市场,但是它本质上是一家计算平台公司,通过定义好系统架构,开放合作,能够满足不同阶段的多样化客户需求,与伙伴一起共同建设面向未来的数据中心。

2.NVIDIA如果自己重新做一套存储产品,本质上也无法取代客户当前的生产存储,也无法有效利用客户的生产数据。NVIDIA想要的是掌控算力平台,当前联合外置专业存储厂商是上策。

3.以存储为代表的传统IT厂商,在企业和运营商客户已耕耘二三十年,有大量的客户基础和数据存量,NVIDIA和存储厂商合作,本质上是把原来以CPU为中心的伙伴拉拢到自己身边,通过联合方案,让存储厂商带着NVIDIA的软硬件一起销售,扩大客户和产品覆盖面;同时,存储厂商具备成熟的企业级交付服务能力,这也是NVIDIA所不擅长的。总而言之,NVIDIA和存储的合作是互惠互利、合作共赢的。

四、对于中国区市场客户的启示

无论客户采用什么算力平台(NVIDIA/昇腾/…),存储绝对不容忽视。NVIDIA的系统无论集群规模大小,均标配外置专业存储。对于中国的客户而言,无论当前的AI集群处于什么阶段(规划中/建设中),我们都强烈建议立即关注存储的配套建设问题,对存储的“小”投入,将带来AI系统效率的“大”提升。

 

全部回复(
回复
回复