构建先进AI存储,助力金融业AI大模型高质量发展
小蚂蚁的路  2024-12-12 18:55  发布于中国

在2025金融科技发展趋势洞见圆桌会议上,华为闪存存储领域副总裁严浩在发言中提到,“AI时代需要AI存储,通过存算网协同,在训练阶段提高数据准备/加载速度,提高AI集群可用度。在推理阶段以存代算,大幅减少算力压力,显著提升推理吞吐量,助力金融业AI大模型高质量发展。”

人类发展迎来数智时代,随着大模型产品和服务的爆发式增长,数据规模爆炸式增长。数据作为发展新质生产力的关键生产要素,数据价值不断攀升。金融业高度重视大模型应用创新与实践,积极探索落地路径与应用场景。然而,大模型在金融业的应用尚处于初级阶段,面临数据归集及预处理效率低、xPU与存储的带宽不足、算力集群可用度低等诸多挑战,对存储提出了更高要求。具备极致性能、高扩展性、数据韧性、新数据范式以及数据编织能力的新一代AI存储是通往数智时代的必由之路。


| 以存强算,AI集群可用度提升30%以上


考虑成本和算力配置等因素,充分挖掘金融数据价值,需要保证AI集群算力可用度。而问题是随着AI集群规模的扩大,故障率也随之变高,目前业界千卡以上的AI集群可用度往往不足50%,这意味着,即使不断增加xPU的数量,其可用度却呈反比降低,这对于宝贵的算力资源是极大的浪费。而使用先进AI存储,提升训练集群存储性能可以大幅缩短数据集加载时间,实现秒级CKPT(检查点)保存,分钟级断点续训,有效提升算力集群可用度。


| 数据编织,实现跨域数据高效归集,数据全局可视可管


随着大模型的规模法则Scaling Law不断演进,无论是在进行CKPT的并行保存与加载、多模态数据的收集与清洗、全局数据的Shuffle(混洗)与模态对齐,还是AI算法的调优以及大规模集群的运维诊断跟踪,都迫切需要一个全局对等共享、单一命名空间、且具备高性能的大型文件系统。这样的系统能够避免多文件系统和多集群之间联邦式的低效堆叠,从而显著简化大规模集群环境下的数据调度和数据管理流程,进而持续提高数据供应的效率。


| Long Context(长上下文)成为推理发展的趋势,以存代算,长记忆内存型存储提升推理体验并降低系统成本


AI推理是金融企业实现AI应用商业化的先决条件,金融企业的最终目标是通过智能客服、票据处理等一系列推理应用加速实现新质生产力。长上下文处理技术不仅显著提升了模型在多样化任务中的表现,而且为模型在实际应用中的广泛使用打下了坚实的基础。显然,长上下文处理技术已经成为推理技术未来发展的主要趋势。然而,在实际应用中,长上下文处理面临着成本高昂和体验不佳的双重挑战,尤其是在推理过程中KV-Cache存不下问题尤为突出。迫切需要解决KV-Cache的全局共享和推理记忆的持久化问题。因此,将KV-Cache实现分层缓存,并确保其高性能访问,通过长记忆内存型存储以存代替算来提升推理性能和成本效益,已成为技术发展的主流方向。


中国的AI存储快速发展,9月华为OceanStor A800 AI存储获得MLPerf™ Storage测试全球第一,2节点AI存储性能高达679 GB/s。11月华为AI存储在CCF Storage Evaluation测评中再次全面领先,在性能(带宽、OPS)、可靠性、扩展性均位列第一。


严浩表示,存储系统存在于大模型生命周期的每一环,是大模型的关键基座,金融机构应提前规划建设先进AI存储,提升训练集群可用度,保障数据安全,降低推理成本,提升用户体验,加速金融行业推理应用。


全部回复(
小蚂蚁的路

帖子数

11

粉丝数

0

关注的人

1
回复
回复