2024年存储战略路线图
伏羲Dai  2024-08-13 11:55  发布于中国

640.png

关键发现

  • 随着数据量大幅增长、企业边缘数据进一步增多,以及AI和生成式AI工作负载的广泛应用,使用数据分类工具来优化存储、实施数据生命周期管理、降低安全风险并加快数据工作流程已成为必要。

  • 基于消费模式的存储即服务(STaaS)的混合平台原生架构能够提供显著的成本效益和生产力提升,并创建一个更具韧性和持久性的数据信息服务环境。

  • 普遍存在且代价高昂的网络存储威胁以及日益增加的监管和保险成本,正迫使存储专业人员应用新的主动防御方法。

  • 统一的文件和对象存储平台整合了非结构化数据工作负载,降低了复杂性、成本和厂商依赖。

  • 在混合云和SaaS环境中,应用程序的广泛部署增加了关键业务数据保护和恢复的复杂性。

概述

推动数字化转型的市场力量、混合云战略的应用,以及数据中心、云和边缘的数据量快速增长和扩散,要求打破长期以来的范式。IT基础设施管理者必须应用新的存储平台技术和技术手段。

本研究为IT基础设施管理者提供了关于现代存储平台技术、方法和存储厂商投资的洞察,以应对和加速IT基础设施领域的变化。它提供了一个总体计划和时间表,以控制并降低可能扰乱IT运营的因素的风险。这一战略存储路线图还提供了在混合云和数字数据时代背景下如何增强IT成果的指导。

包括备份、灾难恢复、勒索病毒预防和治理在内的存储技术和消费计划的进步,将显著增强和自动化复杂且劳动密集型的流程。

未来几年,负责多云数据存储基础设施的IT基础设施管理者将改变其获取、部署、投资和管理存储资产和数据环境的方式。在混合云时代,平台原生功能将推动存储基础设施决策和厂商投资战略,因为数据中心将在多个基础设施领域(包括本地、托管、公有云和边缘领域)中变得更加分散和逻辑化。IT基础设施管理者需要权衡在公有云中集中部署关键任务应用基础设施的优势与基于混合平台战略的优势,这些战略建立在传统存储厂商的能力之上。

IT基础设施管理者充分认识到云运营模式的整体优势。它用基于消费的厂商管理产品取代了资本支出(CapEx)和采购活动,在多个方面显著有利于IT运营。向软件定义基础设施方法和自动化计划的转变将对人才保留和专业知识问题产生积极影响,使IT领导者能够退出硬件管理并利用厂商的生命周期管理能力。

2024年存储战略路线图概述

未来趋势:

  • 平台原生,集中管控的数据服务平面将全面支持混合IT环境

  • 软件定义存储和NVMe-oF架构将取代传统存储设备,成为主流

  • 统一的文件和对象数据平台将整合非结构化数据基础设施的所有工作负载

  • 基于主动防御的网络威胁检测解决方案将显著减少安全威胁

  • 基于NVMe QLC闪存SSD的系统将大规模取代基于HDD的混合闪存存储

当前现状:

  • 存储系统缺乏自动化自助编排功能

  • 存储设备和三层架构僵化且缺乏灵活性

  • 分散的文件和对象存储工作负载导致非结构化数据形成孤岛

  • 勒索病毒或内部网络攻击已成为日益严峻的安全威胁

  • 存储系统消耗了数据中心11%至14%的电力,产生大量碳排放

差距分析:

  • 本地化存储系统严重缺乏平台原生数据服务架构策略

  • 刚性资本支出模式和功能采购模式,缺乏基于消费的即服务优势

  • 基于硬件的存储管理未能充分利用AIOps的潜力

  • 数据保护方案未能提供数据韧性检测能力,无法有效应对勒索病毒威胁

迁移计划:

  • 向平台原生混合IT操作模式过渡

  • 将非结构化数据工作负载整合到统一的文件和对象平台

  • 投资先进的数据保护和勒索病毒网络存储防护方法

  • 投资高密度QLC SSD闪存系统,以减少电力消耗和碳排放

云运营模式的广泛应用正在引领新的存储架构和数据服务战略,包括通过软件定义技术和API优先思维方式提供的数据服务平台中心操作方法。IT基础设施管理者必须利用一个集成即服务合作伙伴的生态系统,为快速转型奠定基础,从而解锁先进和新兴的存储功能。此外,IT基础设施管理者必须对专家流程和IT运营模式采取完全不同的方式,通过应用先进的AIOps和厂商自动化工具来控制不可预测的成本。传统的资本支出采购活动、劳动密集型的IT数据管理方法和脆弱的遗留系统无法随着数字数据的扩散而扩展。

企业级存储基础设施正处于一个关键点,超大规模云服务商开始提供本地化存储服务,而本地化存储厂商则提供消费服务。IT基础设施管理者需要理解存储格局中的竞争差异、叙述和细微差别,以确保在两者之间的界限模糊时获得理想的结果。然而,IT必须拥抱混合云运营模式,并制定一个行动计划,以必要的资源帮助整合这些洞察和指导。

总之,以下市场力量将在未来五年内塑造企业级存储格局:

数据时代异常庞大,正在快速且不可预测地增长,风险比例增加,数据中心活动和IT运营遍地开花:数字化升级、AI和GenAI的使用以及云运营模式的应用给IT运营带来了巨大的压力,迫使其转变过时的方法。

低级别管理和支持活动的管理员和支持人员的可用性和保留将提高生产力:AIOps和GenAI的进步增强了专家知识,提升了生产力、韧性,以及自动化和简化的操作。

资本支出流程成本高且缺乏灵活性,导致采购和预算中的效率损失高达三分之二,以及额外成本和拖延的刷新周期:基于消费的即服务产品(包括块存储、文件存储、对象存储和数据服务)取代了本地升级的资本支出采购和IT管理。

对不断增加的不可持续的安全威胁的补救和恢复能力不足:勒索病毒检测和预防方法的进步降低了威胁暴露,并显著提高了恢复能力,减少了财务损失。

数据中心边缘正在崛起,超过50%的数据将在那里生成和处理:边缘架构和高效数据管理的进步需要与平台原生的集中控制和数据平面能力紧密结合。

生成式AI与AI系统

生成式AI和AI存储工作负载基础设施正受到高度关注,需要特别重视如何应对与存储相关的众多内在技术和最佳实践,以实现最佳部署方法。虽然AI并非特定技术,存储分析师也不建议将其作为路线图或时间表的一部分实施,但提供潜在的基础设施策略洞察对确保项目成功至关重要。

并非所有企业都需要为运行生成式AI应用程序专门构建新的存储设施。对某些企业而言,根据其大型语言模型或GPU需求,公有云可能是合适的选择。对其他企业来说,现有的高性能存储可能已经足够,特别是在仅试点现成语言模型并直接进入推理阶段,跳过训练部分或仅对现有模型进行微调的情况下。

从功能和性能角度看,生成式AI的存储与其他分析应用程序的存储并无太大区别。例外的是,为计算集群提供数据的性能能力对生成式AI变得更加重要,且在大规模应用时这种需求会被放大。生成式AI工作流的训练阶段可能对性能要求极高,这取决于模型的规模。存储层不仅需要支持高吞吐量以为CPU或GPU集群提供数据,还必须具备足够的性能以支持模型检查点和恢复,确保计算集群持续运行。

对于生成式AI的存储,企业不仅应考虑用于运行特定语言模型的即时训练数据,还应考虑为未来的生成式AI应用保留数据所需的存储。此类数据最好存储在具有可扩展性和成本效益的数据湖中,而不一定是训练语言模型所需的高性能存储。

生成式AI应用存储的三种主要部署方法是:

  • 使用公有云存储。

  • 构建一个端到端的存储基础设施层,具有适合生成式AI工作流每个阶段的性能和数据管理功能。

  • 构建一个能够承载所有训练数据的平台,并支持生成式AI工作流不同阶段对应的多样化工作负载特性。

上述方法均可由拥有基础设施和项目管理专业知识的第三方托管公司进行增强和管理。如果上述方法导致在本地部署存储层,则不一定需要部署多个平台来支持生成式AI工作流的不同阶段,特别是当模型规模或训练数据总量不大时。现代存储平台设计用于处理多样化的工作负载,以支持训练和推理阶段。

以下问题的答案将决定哪种方法最适合企业:

  • 生成式AI模型将在何处运行,本地还是公有云?

  • 计算/GPU将位于何处,本地还是公有云?

  • 用于训练或微调语言模型的数据总容量是多少(以GB或TB为单位)?

  • 对于多模态AI模型,存储技术能否为各种数据源(文本、代码、图像、视频和音频)提供所需的性能?

  • 实际应用程序将在何处托管以提供推理服务?

数据输入和准备完成后,生成式AI工作流涉及的两个主要活动是:

  • 训练:在此阶段,语言模型从训练数据中创建或微调。根据训练参数的数量,这个过程可能非常耗费计算资源,并且需要从存储层到计算层的持续数据传输。此阶段的主要存储性能能力是以每秒千兆字节为单位的大规模吞吐量。各种存储功能共同提高系统的吞吐量。

  • 推理:在此阶段,用户的输入通过模型运行以生成输出。此阶段的主要性能要求是极低的延迟,以微秒为单位测量。

在为生成式AI工作负载选择存储基础设施时的其他考虑因素:

  • 统一平台:企业内部存储所有训练数据的通用平台,基于键值数据存储以实现快速数据访问。需要支持GPU直接存储,以最大化数据访问和传输速度,确保GPU始终高效运行。使用NFS over RDMA提供高速度的文件访问支持。混合云需要一个通用平台,能够访问存储在多个位置的数据。

  • 自定义元数据:提供通过增强元数据为底层数据添加上下文的能力。

  • 元数据索引和目录:便于轻松查找和发现用于训练的相关数据。

  • 基于闪存的存储基础设施:满足训练和推理阶段的最低延迟要求。考虑使用高密度容量的QLC NAND闪存介质来构建大型数据湖。

2024-2028年战略存储路线图时间表

2024年

  • 用AIOps工具取代33%的IT存储管理和支持任务

  • 将非结构化数据整合到统一平台

  • 用STaaS模式替代50%的新增存储资本支出

  • 实施基于AI/ML的数据发现和分类工具

  • 采购具有100%数据恢复SLA的网络存储解决方案

驱动因素:

  • 应用混合云平台原生服务架构,提供基于消费的SLA产品

  • 采购模式从采购产品功能转向以IT运维SLA为中心

2025年:

  • 停止所有基于资本支出的存储基础设施采购,全面转向STaaS模式

  • 用软件AIOps专家和工具取代存储硬件专家

  • 实施具有99.99%网络韧性SLA的网络存储解决方案

  • 推出基于可持续性SLA的电力和碳排放解决方案

驱动因素:

  • 从硬件转向软件定义的存储基础设施

  • 存储与计算的解耦式架构

  • NVMe-TCP技术

2027年

  • 75%的资本支出基础设施将被STaaS替代,并将在2030年达到90%以上

  • 实施具备100%网络数据威胁影响保障的网络存储系统

  • 到2028年,解耦的、软件定义的存储和计算架构将取代传统的外部控制器阵列

驱动因素:

  • 存储系统的自主管理

  • 具有网络韧性的数据存储系统企业数据存储的主要部分在数据中心边缘

-----

Source:Jeff Vogel, Julia Palmer, Michael Hoeck, Chandra Mukhyala; 2024 Strategic Roadmap for Storage; 23 February 2024

--【本文完】---

本章来源:Andy730公众号

全部回复(
回复
回复