AI大模型,存储的机遇与挑战
匿名用户于2024-06-28 17:44发布

一、背景介绍:

随着NLP、Transformer、GPT、强化学习等AI相关模型和技术的突破,已开启新一轮AI大模型科技革命。其在对话、知识反馈等方面已远超过普通人类水平,更将颠覆互联网、工业制造、政企、智能客服、媒体等千行百业。当前,AI大模型的第一波浪潮已经开始,AI技术方向已然明确,更宏大的AI浪潮即将奔涌而来。

二、AI大模型的趋势:

在大模型的发展过程中,整体上出现了几个趋势:

第一个趋势,数据规模越来越大,已从”几十TB级”增长至“PB级”;

第二个趋势,模型参数规模越来越高,已从“百万级”传统模型走向“千亿级”大模型;

第三个趋势,模型应用越来越行业化,已从“通用基础大模型”走向“千行百业大模型”。

第一个趋势中,数据规模越来越大。AI大模型已从单模态发展到多模态,涉及到文本、语音和视频等类型,数据体量已增长到PB级,在一个完整的AI流程中,大体分为数据的归集,预处理,训练和推理四个阶段,各阶段对数据访问要求出现以下几个特征:

第一、多协议融合、扩展性:AI大模型流程中,不同类型的数据涉及不同的数据存取方式,如数据归集阶段,文本类数据适合用NFS文件方式访问,语音视频类数据适合对象方式访问;数据预处理阶段,数据适合HDFS协议访问,而训练及推理阶段,数据则适合采用NFS协议访问;因此多协议访问能力为AI大模型提供灵活多样的数据访问能力。另外多模态海量数据对存储系统要求具备很好的扩展性,以适应PB级海量数据的快速增长。

第二、全局数据管理:AI大模型训练中,最初的归集阶段,原始数据来自不同边缘,不同数据中心,以及线上等。数据归集期间耗时长(几周以上),管理难度高,需要具备一个像GFS的全局文件系统能力,可以保障跨域,跨数据中心,跨线上线下的海量数据的管理,实现对不同类型的数据进行标签化,目录化,可视化管理,降低数据管理的难度。

第二个趋势中,模型参数规模越来越高。意味着训练的效率要求变得更高。提升训练效率的方式有两种:

第一、扩大集群规模,大集群可增加训练并发量,经测算,千亿参数大模型分布式训练典型配置需要1024个GPU,万亿参数规模大模型分布式训练典型配置则需要8192个GPU,集群变大带来了两个问题:

  • 投资规模增大:集群规模的扩大,带来投资的倍数级增加,经测算,单GPU的价格大约¥30万人民币,对于1024卡的GPU训练集群来讲,仅GPU的费用就达到¥3亿人民币。
  • 可靠性要求高:集群规模的扩大,则GPU、服务器、存储介质、内存等重要部件的故障率会上升,经过统计分析,平均每400个GPU在一个轮次的训练当中,会产生2次故障。

第二、提升GPU的利用率,经分析,提升GPU利用率的关键因素有两个:

  • 高IOPS性能:每个Epoch轮训开始时,都是从存储空间中读取海量的特征向量小文件数据开始。业界最新GPU卡均支撑100Gb的RoCE/IB接口,换算成8K IOPS则单GPU可支持百万级IOPS。因此在千亿参数大模型的点配集群中,最大可达到10亿IOPS/秒,因此对于存储系统来讲,并发读写性能越高,耗时就越少,GPU等待时间也就越少。
  • 高带宽性能:为保障训练的可持续性,防止训练期间的故障导致从0开始重训,需要Checkpoint快照数据,来保护训练过程当中的阶段性成果,单个Checkpoint数据量为10GB级,千亿参数规模的点配集群中,总的Checkpoint的数据量为10TB级。在保存Checkpoint数据期间,GPU需暂停训练工作,一直到Checkpoint快照数据保存完成,因此提供大带宽的写入能力,则可缩短GPU停训时间。

第三个趋势中,模型应用越来越行业化。意味着行业大模型服务于企业生产、经营,对模型的精度要求更高。同时,在千行百业细分场景中,客户对AI知识的掌握千差万别,希望做到Turnkey交付能力,降低交付、AI模型应用和运维方面的风险。因此面向行业AI,应具备以下几个要求:

第一、向量数据高效检索:通用基础大模型通常无法满足行业,需要对大模型进行基于行业来做高频度的修正与微调。通过向量化行业知识库,提供高效检索能力,支持增量训练、微调训练,以及推理中提升关联问题集精度等方式来提升行业的模型精度,从而可以让AI大模型广泛应用在千行百业中。

第二、训推一站式集成:行业用户通常不是AI专家,对AI的训练、推理应用所需技能无法满足AI要求,因此在数据的归集、预处理、训练、推理上线的全流程中,客户无需关心AI部署、应用、维护等费时耗力工作,只将更多精力聚焦到如何利用AI来最大化提升企业的经营效率上。

三、存储的机会与挑战:

综上,对当前千亿参数大模型的3个趋势分析后,认为AI存储需具备:

第一、高性能文件存储能力,可满足AI全流程中,支持PB级海量多类型数据的归集、用于训练的海量小文件数据的快速读取,以及Checkpoint带宽型文件数据的高速写入;因此存储的多协议融合访问能力、扩展性、以及极致混合负载性能是文件存储当前面临的巨大挑战;

第二、全局数据视图能力,满足AI流程在数据归集阶段,对海量数据进行跨域、跨类型的可视化管理和目录化管理,降低数据归集时间,提升数据萃取效率;因此对海量数据进行分类,标签,满足海量数据训练按需选择,是提升端到端训练效率的关键点;

第三、向量存储能力,满足AI大模型做微调训练、增量训练,以及在推理期间高效供给高质量关联知识,实现模型在千行百业中的高精度,高效率的应用,需要构建向量数据的高效精准的检索能力;因此像高性能、高精度的 ANN 检索算法,近数据侧检索加速能力是关键挑战;

第四、AI超融合训推一体能力,通过一站式部署,一站式训推以及一站式运维能力,满足面向行业的及时性、易用性。

全部回复(
回复
回复