本文转载自Andy730 公众号
题目:How AI is Challenging Infrastructure
专家:David McIntyre, SNIA Board of Directors Member and Samsung
企业AI应用的现状
主持人:请您从更宏观的角度来概括一下,目前企业IT领域以及整个IT行业AI应用的现状。
David McIntyre:在我的职业生涯中,还从未见过像现在这样充满活力且势头迅猛的趋势。大约半年前,AI的浪潮以强劲的势头席卷而来。各类企业和解决方案供应商都在积极开发能够利用AI技术的创新应用,从云端到边缘计算,从大型本地部署的语言模型到更小型的模型。
目前,我们正处于这股浪潮的顶峰,正如Gartner的技术成熟度曲线所展示的那样,但我认为我们即将迈入实际应用的阶段,特别是在企业级应用领域。像ChatGPT这样的解决方案,在消费市场和企业市场都显示出了巨大的潜力。例如,我可以要求ChatGPT为我撰写一本书,只需告诉它我想要的风格,它就能完成这项任务。这些进步非常令人振奋,我也期待有机会将这些技术应用于企业场景。
我认为我们正在走出那种狂热和兴奋的阶段。这是一个令人激动的时刻,AI在数据中心、数据存储、网络和整个IT基础设施中展现出了巨大的应用潜力。
AI部署的架构和发展趋势
主持人:我们现在开始关注AI部署的一些实际问题。在谈到AI时,目前有许多前沿的架构和标准。您能否谈谈这些架构,以及您对AI发展趋势的看法?是什么在推动这些先进架构的发展?
David McIntyre:我们需要考虑如何优化基础设施中的计算、网络、存储和内存资源,以便更高效地支持这些海量的数据,这些数据是AI应用的基础。以大型语言模型为例,无论是Meta、Google还是AWS,这些大公司现在都拥有自己的大型语言模型。他们发现,在自家平台上部署AI解决方案具有极大的商业价值。
这些大型语言模型包含数十亿甚至数万亿的参数,这些参数需要训练和推理,以便对收集到的数据进行深入分析,并赋予数据智能。那么,我们该如何处理这些庞大的数据呢?首先,面对如此庞大的数据量,我们需要明确如何管理和计算这些数据。算法将指导我们如何进行数据处理,但接下来的问题是在何处执行这些计算。
这正是数据中心计算和计算存储技术发挥作用的地方。与其将海量数据传输到中央处理器或处理器集群,不如在数据产生的地方部署分布式计算资源。无论是在云端还是边缘端,这一点都非常关键,甚至在数据中心内部,也可以在数据收集的地点部署计算资源或加速器。这有助于解决从计算到内存的瓶颈问题,因为许多AI应用现在都受限于内存容量。
在存储方面,存储系统需要具备良好的可扩展性,并能够支持多种文件类型和数据格式。十年前,存储技术还被认为是相对落后的,但现在它已经取得了巨大进步,能够与内存资源紧密协作,充当最后一层缓存。
至于网络方面,如果我们能在数据产生的地方部署计算资源,就能减轻网络的拥堵问题。就像我在去往会议的路上遇到的交通堵塞一样,如果数据不能顺畅传输,计算就无法进行。
从基础设施的挑战来看,这些都是AI发展中需要考虑的潜在解决方案。
AI对基础设施的挑战
主持人:AI领域中有许多令人振奋的研究项目正待开展。您刚才提到了网络和数据的问题,从基础设施的角度看,AI究竟面临哪些挑战?它对我们现有的基础设施带来了哪些压力或助力?
David McIntyre:AI对我们现有的基础设施提出了巨大的挑战。具体来说,无论是云端到边缘的部署还是本地数据中心,运行AI应用时,都需要在边缘端收集数据,并可能在边缘端部署分布式计算资源或计算存储资源。但问题在于,这些数据该如何处理?通常需要将它们传回中央系统进行深入分析。例如,在边缘端可能正在进行实时视频分析,用于安全监控或安全分析。然而,要支持不同行业如零售、医疗等进行深入分析,如何有效管理和协调这些数据与计算结果,便成为了一个挑战。
另一个挑战是如何将这些新的基础设施资源与应用层相结合,这通常需要软件层面的升级。数据中心运营商希望所有系统都能稳定、高质量地运行,且不中断电力供应。引入新技术,无论是新软件版本、新服务器部署还是其他任何基础设施组件,都需要非常细致的规划。他们不希望这些新技术干扰到当前的日常运营。因此,制定新的软件部署指南至关重要。
计算存储API模型是一个将计算存储资源连接到主机的软件模型。在部署之前,这些模型需要经过终端客户和应用开发者的严格测试。数据中心运营商不会在整个数据中心自动部署这些新技术,而是会选择数据中心的一部分进行隔离测试,确保新硬件或软件的安全性、确定性、一致性和高质量运行,之后才会在整个数据中心全面推广。
另一个不容忽视的挑战是电力消耗。随着AI数据量的增加以及对这些数据进行计算的需求增长,电力消耗也在迅速攀升。从50兆瓦的数据中心发展到未来的千兆瓦数据中心,这是一个迫切需要解决的问题。大型超大规模数据中心和OEM厂商也都在将可持续性纳入他们的业务中,这是非常关键的。
AI在可持续性方面的应用
主持人:可持续性是当今世界面临的一大挑战,特别是在未来。这不仅关系到政策监管,也关系到随着数据中心数量的增加,它们在电力消耗方面开始与家庭用电竞争。在欧洲和美国,这已经成为一个巨大的挑战,因此围绕这一话题进行讨论显得尤为重要。从AI的角度来看,我们是否可以利用AI来应对这一可持续性挑战?是否有人正在使用AI进行可持续性相关的研究和开发?
David McIntyre:确实,利用AI来促进可持续性存在很多机会。当我们评估数据中心的碳足迹时,相关的数据正在被收集,用以管理基础设施及其运行,并持续监控碳足迹。在制造工厂或数据中心,随着海量数据的收集,这些数据可以被AI分析工具所利用。我并不是说这些过程都是手动完成的,它们已经超越了这一阶段,目前已经有了成熟的流程来管理碳足迹。然而,通过应用先进的AI预测算法,我们可以实现从被动地响应数据到主动预测趋势的转变。这样,我们可以在事件发生前,利用AI和大规模语言模型等工具进行预测、调整、优化和校正。
AI与安全
主持人:比如一家公司在预测天然气价格上涨时,能够利用AI分析需求与消费数据,这确实是一个很好的应用场景。另一个重要的问题是监管和安全,尤其是在当前的环境下,我们该如何将安全因素融入AI中?
David McIntyre:在安全方面,我们主要关注几种策略和机制。首先是检测,然后是纠正和隔离任何潜在的安全威胁。这包括在边缘端进行安全防护,或者在整个基础设施中实施安全措施。作为数据领域的专家,我们可以从安全专家那里获得宝贵的指导,他们能够从全球监管要求的角度为我们提供指导。总的来说,SNIA在发布各种部署、架构、推荐参考设计和规范时,始终将安全作为首要考虑的因素。
谁在引领潮流
主持人:从全局角度来看,在安全领域,是否有某些特定的领域、地区或企业做得更加出色?又有哪些群体正在引领这一潮流?从您的角度来看,哪些企业可能在安全领域处于领先地位,他们的发展方向又是怎样的?
David McIntyre:我一直在关注安全领域的最新进展。据我所知,三星在推动其SSD和系统开发的安全方面表现得非常突出。我与三星设备解决方案美国内存解决方案实验室的合作经验告诉我,安全性是他们在开发新架构和解决方案时的重要考虑因素。其中,勒索病毒是一个热门话题,它引起了每个人的关注。我经常与SNIA的安全专家Eric Hibbert讨论如何在病毒传播前进行检测并主动隔离问题。他分享了许多安全领域的最新方法和常见的监管要求。三星也在研究如何在勒索病毒问题扩散之前进行预警。
当然,还有其他公司在这一领域处于领先地位。AI也展现出了巨大的潜力。如果我们能够通过检测SSD或整个数据中心的计算、内存和存储基础设施中的异常读写模式来预测勒索病毒事件,这将是AI应用的一个实实在在的成功案例。这不仅仅是一些令人兴奋的消费者应用程序,更是企业需要面对的挑战,通过应用AI来预测和防范勒索病毒或其他安全威胁。
未来五年AI发展趋势
主持人:在未来的12个月到5年内,您如何看待AI的发展?有哪些事情或趋势是您特别期待的?
David McIntyre:我们今天大部分时间都在讨论底层基础设施的部分,我认为这部分将会逐步完善,因为有SNIA和其他组织中的专家,以及客户和软件开发人员的共同努力。我们为什么要完善这些基础设施呢?因为有一些令人瞩目的终端应用和解决方案能够解决人类面临的重大问题。例如,在癌症研究方面,如果我们能在有生之年找到治愈癌症的方法,那将是一个划时代的成就。
我认为在基因组学、基因组测序方面的工作非常有前景,我们已经将AI引入了许多算法家族,并显著提升了这些算法的性能。从心底里说,如果我们能在这方面取得突破,甚至是在食品分配服务方面也是一样。世界上有80%的人口生活在贫困之中,我们如何平衡食物的配送,将食物送到需要的国家,并减少浪费,这是一个迫切需要解决的问题。
此外,还有污染问题,我们要在2030年前实现零排放的碳足迹目标,虽然这超出了五年的时间范围,但我认为可持续发展不仅仅是口头上的讨论,我们已经在三星做了很多有意义的事情,但实现我们设定的全球目标仍然至关重要。
因此,我认为这三个领域都是非常重要的。作为一个行业,或者说无论我们如何称呼它,这都是我们作为人类的责任。我认为这是一个绝佳的机会,可以将技术与解决当前地球面临的问题结合起来。
--【本文完】---