面对AI技术爆发带来的巨大挑战,存储介质亟待思考演进方向,构筑新的竞争力。
文丨阮政委
数据作为人工智能的重要“燃料”,其规模和质量直接决定着AI的智能化高度,并不断驱动AI大模型加速通向AGI。
数据存储作为AI全流程业务的坚实底座,负责数据的存储、转移和流通,为大模型的训练和推理提供支撑。新兴AI应用场景对数据存储容量、数据处理速度、流动性和安全性等方面提出了更高的诉求。
而存储介质,作为数据存储设备的关键部件,以及新一代生产力革命的底层引擎,正经历着关键性技术变革。在这场智能革命中,存储介质将会面临哪些挑战,朝着哪些方向演进?
AI场景全业务流程中
存储介质面临四大挑战
AI大模型全业务流程主要包括数据归集、数据预处理、模型训练、推理部署四个阶段,每个阶段的操作任务及对存储介质的需求都不相同。
图1 AI大模型全业务全流程
笔者认为,AI场景全业务流程下的存储介质,尤其SSD面临着以下挑战:
• 数据归集和数据预处理:SSD单盘容量挑战。非结构化多模态数据集暴增,原始数据集达到百PB规模;数据预处理服务器本地SSD盘容量小,需分多批次完成,数据预处理周期长;超万卡集群需要存储高扩展性,由于单盘SSD容量小,单框存储容量有限,单个计算集群对接多个存储集群,导致存储集群规模庞大复杂,运营维护困难。
• 模型训练:数据读写效率挑战。训练数据集为亿级小文件,需快速加载,减少XPU等待,对存储介质的随机读写能力(IOPS/TB)要求高;计算集群故障频率高,需频繁保存、加载CKPT,对存储介质的读写带宽能力要求高。
• 模型推理:时延、带宽、I/O挑战。Resnet50模型离线推理单张A100 GPU卡每秒处理68994张图片,单P算力需要带宽14GB/s,要求存储介质具有高带宽能力;边缘推理业务时延敏感(互联网推荐<30ms),要求存储介质时延低,向量检索速度快;大batch size、长序列推理任务效率低,KV Cache占用显存大。
• 全流程:可靠性、安全性挑战。行业内的私域数据集存在敏感信息泄露、勒索攻击等风险,数据安全面临重大风险,需要在存储介质层面增强数据加密、数据安全性、可靠性的全面考虑。
• 全流程:模型训推能耗挑战。AI大模型是新的“能耗巨兽”,研究论文显示,训练GPT-3耗用了1.287吉瓦时电量,大约相当于 120 个美国家庭 1 年的用电量。从存储介质角度分析,需要提升单Die密度、SSD比特密度,降低TCO。
综上所述,AI场景下的存储介质挑战可归纳为:容量挑战、性能挑战、安全挑战、节能挑战,要构筑AI时代存储介质新竞争力,也应从这四个方面发力,解决底层根本问题。
图2 存储介质四大挑战
AI时代下存储介质需求及发展趋势
AI带来的挑战,驱动存储介质向更大容量、更高性能、更低功耗、更低成本、更高安全方向发展。
(1)超大容量:存储EB级数据集,成为AI业务理想选择
从最初的SLC、MLC,到现在的TLC、QLC,闪存颗粒技术不断发展,NAND颗粒的层数也不断增加,未来NAND Flash会突破至300层,存储容量也会大幅提升。在3D NAND技术的突破下,采用QLC介质的SSD盘容量正在大幅增长,未来会演进至128TB、256TB,甚至实现单盘1PB容量将不再是梦想。
例如,在大容量TLC方面,DapuStor、Memblaze、Micron都已推出PCIe5.0 30.72TB TLC,读带宽达到14GB/s,写带宽达到10GB/s。在大容量QLC方面,Solidigm作为领先者,采用192层3D NAND技术的QLC SSD最大容量已达到61.44 TB(D5-P5336),其顺序读性能达到7GB/s,顺序写性能达到3GB/s;122.88TB QLC计划在2025年上半年量产;国内厂商大普微同样基于QLC介质,推出61.44TB SSD(J5060)。
图3 SSD大盘厂商洞察
QLC SSD相比于TLC SSD的数据读取性能持平,但在能耗和空间占用上更加节省,使其更适用于读密集的AI推理场景,如CDN、OLAP数据库场景,成为AI业务的理想选择。AI应用从训练转向推理,促使存储需求向本地化转移,为满足更多定制化需求,将会推出更高性能、更大容量的SSD。据悉,SK Hynix正在开发300 TB的超大容量 SSD,来满足AI需求,降低数据中心整体TCO。
(2)卓越性能:提供高性能、低时延能力,加速AI业务运行
受前端协议和后端通道速率的限制,SSD的性能难以随容量线性增长。颗粒带宽5年时间增长了10倍,而通道带宽10年才增长了10倍。AI业务在小文件加载和大文件读取方面,对SSD的性能皆有很高要求,旨在降低XPU等待时间,缩短大模型商业化落地时间。
前端接口协议从PCIe 3.0、PCIe 4.0向更快速的PCIe 5.0转变,基于PCIe 5.0的SSD相比于PCIe 4.0,其性能提升一倍。
很多SSD主流厂商如SK Hynix、Micron、Huawei、Dapustor已有PCIe 5.0的SSD量产。例如,SK Hynix生产的PS1010,顺序读性能达到15000MB/s,顺序写性能达到10200MB/s。
另一方面,CXL协议的发展也为实现更快、更灵活的数据传输方案提供了一种可能,目前已演进至3.0,传输速率可以达到64GT/s。CXL实现了设备到CPU之间的互联,实现了存储计算分离。同时,CXL允许CPU以低延迟和高带宽访问连接设备上更大的内存池,突破传统DDR通道限制,从而扩展内存容量和带宽从而扩展内存。对于性能要求极高的缓存场景,例如AI大模型推理KV Cache缓存场景,要求极致带宽性能,可以采用CXL盘加速数据加载速度。Samsung推出了基于CXL协议的存储器CMM-D,可以实现与现有DIMM无缝集成,带宽提升多达100%。
(3)绿色低碳:存储高效节能,打造绿色数据中心
在全球范围内,节能减排已成为共同使命,各行各业都在积极追求“碳中和”、“碳达峰”目标。AI业务作为吞电巨兽,从数据中心建立,到业务运行,需要消耗大量的电力资源,一个数据中心的存储能耗占比高达35%,数据中心已从算力竞争向能源竞争转变。SSD具有高密度、高可靠、低延迟和低能耗等特点,在AI时代,SSD取代HDD已成为必然趋势,通过大规模部署全闪存SSD,可以大幅降低AI算力中心的能耗,实现绿色节能和可持续发展。
北美诸多CSP厂商新建大型数据中心如xAI,已部署使用Solidigm的QLC大盘用于构建AI数据湖,降低数据中心TCO。国内以阿里云构建10PB的存储解决方案为例,对比HDD与SSD的能耗,如图4所示。
图4 HDD方案VS. SSD方案对比
• AI服务器常过度配置HDD硬盘以满足AI场景下的IOPS需求,带来TCO增加
• SSD相比HDD具有更优的功率密度,可带来巨大的成本节约,5年TCO可节省46%
(4)安全可靠:存储介质内生安全,保护核心数据资产
AI大模型时代,数据的可靠性决定了大模型的准确性,且行业数据多为私域数据,是重要的数据资产。同时,数据也成为了最容易被攻击的价值资产。AI时代开始出现勒索、投毒、窃取等新型安全攻击,时刻威胁着大模型训练数据的可靠性与结果的准确性,并带来严重的经济损失。
例如,2023年3月,Meta语言大模型遭泄露,随后一周内陆续出现Alpaca、ChatLLama、ColossalChat、FreedomGPT等类似大模型,Meta随后被迫宣布开源,前期投资化为泡影,损失惨重。
安全实施措施:SSD盘上通过分析IO操作提取行为模式;聚合多个盘上的特征分析,使用ML模型检测引擎中的异常行为,实现防勒索检测。
AI浪潮的持续奔涌正重塑存储介质的演进轨迹。面对海量数据洪流的冲击、高效存储和快速读取需求的倒逼、安全威胁的复杂演化以及绿色转型的刚性约束,存储介质已站在技术革命的十字路口。紧抓技术主线的交织演进方向,积极探索突破存储介质的创新瓶颈,方能在智能时代的发展中争取主动权。
作者:阮政委| 数据存储专委会公众号认证专家。华为高级工程师,主要从事存储介质研发和在AI场景下的介质技术洞察/规划。
本文转载自 中电标协数据存储专业委员会 微信公众号