2023年,超大规模多模态预训练模型GPT-4的发布,迅速点燃了互联网。从那时起,微软,谷歌,华为,百度,SenseTime和ByteDance等科技巨头都推出了自己的大型AI模型,迎来了AI创新时代。
大型AI模型从根本上建立在大量数据的基础上,并通过预训练和基础模型支持广泛的应用。这些模型依赖数十亿到数万亿的参数,使数据成为数据采集、预训练和建模中最关键的资产。数据的可靠性直接影响训练结果的准确性。然而,在大型人工智能模型时代,数据也越来越脆弱,这使得确保数据可靠性和弹性的挑战变得至关重要且不可避免。
1.大型AI模型面临的数据弹性挑战
挑战1: 新兴攻击方法威胁数据可靠性
在人工智能时代,勒索软件、数据中毒和数据盗窃等新的弹性威胁危及大型人工智能模型训练数据的可靠性,影响结果的准确性,并导致重大的经济损失。这是怎么发生的?
恶意行为者加密数据,使其无法访问计算集群。由于大规模培训涉及大量基础设施投资和超过100万元人民币的日常费用,因此培训的任何中断都可能导致巨大的财务损失。
勒索软件攻击通常涉及数据泄漏,攻击者在暗网上窃取和出售关键资产,如模型结果和数据,对企业造成重大损害。例如,在2023 3月,Meta的大型语言模型被泄露,导致Alpaca,ChatLlama,ColossalChat和FreedomGPT等模型迅速出现。这一漏洞迫使Meta开源他们的模型,使其投资变得毫无价值。
此外,新型网络中毒攻击正在增加。攻击者将恶意数据样本添加到训练数据集中,以非常低的成本扭曲或使训练结果无效。墨尔本大学和Facebook的研究表明,只需要0.006% 的恶意样本就可以在数据中毒攻击中获得50% 的成功率。
挑战2: 保护大量训练和推理数据的高成本和复杂性
以国内领先的人工智能厂商为例: 在数据训练和建模场景中,数据规模可以分别达到5pb和250 tb。像Sora这样的模型的出现标志着从自然语言处理到多模态AI模型的转变,数据规模和预处理复杂性呈指数级增长。例如,Sora和Gemini需要多达100 pb的训练数据,包括图像,音频和视频。随着多模态AI模型从处理数万亿个参数发展到数万亿个参数,数据规模达到eb级。在人工智能时代,保护pb和eb级数据在性能和成本方面提出了紧迫的挑战。
2.具有内部和外部弹性的数据保护系统势在必行
如何在大AI模型时代确保数据弹性和可靠性?我认为加强数据稳健性需要外部和内部两方面的措施。外部措施包括通过在AI存储系统之外实施数据备份和隔离区域副本保留来增强系统弹性和可靠性。另一方面,内部措施侧重于通过安全快照、不可变副本和分层防御来提高内在数据弹性和健壮性。
图1弹性和可靠性是AI存储的关键特性
3.数据备份是最有效的外部措施
最常见的外部措施是有效地备份关键任务数据,通常使用行业标准的备份设备来实现。在人工智能环境中,这些设备必须超越传统能力,以应对大数据量、高保护成本和操作困难的挑战。
全闪存介质可加速大型AI模型的数据保护。近年来,单个ssd的存储容量已经取得了显着的进步,其中一些现在已达到61.44 tb,是传统hdd容量的三倍。凭借其巨大的容量和卓越的性能,ssd正在成为AI时代加速数据备份的最佳选择。基于30.72/61.44 tb ssd的华为OceanProtect设备,备份和恢复性能比传统解决方案提高了三倍以上,满足严格的备份时间窗口要求。
增强的算法提高了备份设备的数据缩减率。基于源重复数据删除和基于目标的重复数据删除的不断更新的缩减率算法有助于降低总拥有成本。华为OceanProtect设备支持高达72:1的数据缩减率,并且正在向高于100:1的比率发展。在pb级备份数据环境中,华为设备通过减少数据中心的机柜占用空间,最大限度地利用备份存储空间,大幅降低功耗,实现节能减排。
数据匿名化确保AI数据弹性: 在人工智能时代,隐私总是有泄露的风险。在备份数据重复使用之前,必须对名称、id、密码等敏感数据进行匿名化处理,以降低隐私数据泄露的风险。确保重复使用期间备份数据的弹性,并满足pci-dss和HIPAA等合规性要求。
4.内部措施应侧重于内在弹性保护
内部保护应强调数据基础设施的内在弹性能力。这可以通过两个关键方法来实现: 第一,存储系统的本地保护。例如,勒索软件检测可确保AI数据源的可靠性。其次,基于网络和存储协作的多层深度防御解决方案为大型AI模型提供了强大的保护。
图2网络-存储协作为大型AI模型提供强大的深度保护
多层纵深防御系统的优点:
Swift网络存储协作: 如果在网络侧检测到入侵,则触发警报并发送到存储系统。然后,存储系统采取相应的保护措施,例如安全快照或网络断开到隔离区域,以快速响应不同的威胁级别 (高、中或低)。
准确的honeyfiles:传统的存储层防御依赖于块列表、信任列表和事件后扫描来对抗勒索软件攻击。但是,Honeyfiles会模拟敏感数据,以主动识别勒索软件并在攻击发生之前触发警报。这种方法从被动响应转变为主动防御,从而增强保护并实现精确检测。
可靠的纵深防御: 多层深度防御系统扩展了对勒索软件攻击的分析,最大限度地提高了每条防线的检测和识别能力。由备份装置提供的分离的备份副本和隔离区副本便于识别、防止和从恶意攻击中恢复,有效地确保数据弹性。将网络和存储结合在一起的华为解决方案使用六层防御来实现99.99% 的勒索软件攻击检测准确性。
5.内部和外部数据保护为AI驱动的行业提供动力
随着大型AI模型的不断发展,它们的参数规模和数据量呈指数级增长。在这种情况下,数据的可靠性和弹性至关重要。集成了内部和外部措施的全面数据保护系统对于支持pb到eb级数据的培训,确保准确的培训结果至关重要。并最终实现AI驱动的行业应用。
免责声明: 个人作者或贡献者在本文中表达的任何观点和/或意见均为其个人观点和/或意见,不一定反映华为技术的观点和/或意见。有关华为产品和技术的详细信息,请访问产品和技术介绍页面或联系华为技术支持。