企业新增数据80%以上是非结构化数据,非结构化数据正在成为生产决策数据。根据华为GIV报告,2025年全球数据总量将达180ZB,其中80%以上都是非结构化数据。预计2025年25%的非结构化数据将成为生产决策数据,2030年80%的非结构数据将成为生产决策数据。
趋势展望
1 新应用催生了海量的非结构化数据, AI 大模型加速了海量非结构化数据进入生产决策系统。
随着 5G 、云计算、大数据、 AI 、高性能数据分析( HPDA )等新技术、新应用的蓬勃发展,企业非结构化数据快速增长,如视频,语音,图片,文件等,容量正在从 PB 到 EB 级跨越。例如,一台基因测序仪每年产生数据达到 8.5PB ,某运营商集团每天平均处理数据量达到 15PB ,一颗遥感卫星每年采集数据量可以达到 18PB ,一辆自动驾驶训练车每年产生训练数据达到 180PB 。
非结构化数据已经进入企业的生产决策系统, AI 大模型在各行各业的应用将加快这一进程。在金融行业,某银行为了实现在线实时授信,利用金融大数据平台及 AI 分析平台,贷款时间从 15 分钟缩短到 1 分钟,同时提升借款人风险识别准确率 80% 。在医疗行业,盘古药物分子大模型对 17 亿个类药分子的化学进行预训练,打破双十定律(即需要超过 10 年时间、 10 亿美元的成本,才有可能成功研发出一款新药),加速新药问世,研发周期从十年缩短至 1 个月,研发成本降低 70% 。
2 为了高效、安全存储企业数据中心的非结构化数据,越来越多的行业期望使用专业的分布式存储解决方案。
首先需要让数据“存得下”:以最低的成本、最小的机房空间、最低的功耗存下更多的数据。
• 企业需要使用海量的的非结构化数据,存储的规模和扩展性是最先考虑的因素。单一集群需要支持几千个节点来简化存储资源分配与管理,同时要求随着节点数的增多,容量和性能需要线性增长。
• 传统的数据多副本技术已经满足不了非结构化数据的存储需求,需要通过专业分布式存储的数据缩减技术,优化存储利用率。比如高空间利用率的纠删码( Erasure Coding )算法、重删压缩算法,并且使用高密存储硬件替换通用服务器,节省机房空间,并降低能耗和运维复杂度, 达到 TCO 最优。
• 业界通过软件和硬件一体的专业分布式存储,为企业客户提供端到端的高可靠、高性能、高扩展解决方案,降低了企业在部署、管理和服务等方面的复杂性。其次要让数据在都要“流得动”: 数据中心间和数据中心内的数据需要根据策略按需高效流动。
• 多地和多形态部署的数据中心需要数据编织功能,把跨地域、跨集群、跨厂商、跨形态的数据资源共享,通过一张图进行数据的按需高效调度。
• 数据中心内通过专业分布式存储的热、温、冷数据分级技术,并自动按需在不同介质迁移,从而实现投资最优。
最后还需要让数据“用得好”:企业的视频、音频、图片、文本等多种混合负载应用都能满足要求。
• 海量非结构化数据承载的应用多种多样,面向混合负载的全闪存分布式存储是最佳选择,在避免数据孤岛的同时, 既能满足视频、音频、文件等大带宽的要求,也能满足图片、检索、查询等高 IO 的要求。相比于传统的 HDD ,分布式存储全闪化 SSD 能显著加速读写速度和降低读写时延。
• 在海量数据使用场景下,由于各种非结构化数据利用技术的进步,在多种业务场景下,一次数据处理大概率会涉及到文件、对象、大数据等多种访问协议的数 据,希望专业分布式存储实现协议互通和免拷贝, 减少数据冗余。
• 海量的非结构化数据不仅仅要求实现数据保存,还需要帮助企业实现海量数据的管理,比如基于元数据的查询和检索加速,以及基于数据冷热识别的数据全生命周期管理。• 存储作为最后一道防线,需要具备数据存储内生高安全、高可靠的能力,例如防勒索、容灾和备份。
建议
建议 1 :数据存储建议企业 IT 团队加强海量非结构化数据处理能力建设。
随着非结构化数据在企业应用越来越广泛,尤其是开始进入企业生产决策系统,如何高效地存储海量非结构化数据、挖掘非结构化数据蕴含的巨大价值,从而指导企业进行科学决策,成为企业关键竞争力。因此,企业 IT 人员和组织有必要加强海量非结构化数据处理能力建设,从以结构化数据为中心的团队向能够设计、规划、管 理海量非结构化数据团队进行转型。
建议 2:选择专业的分布式存储来构建海量非结构化数据底座。
为了提升海量非结构化数据作为生产数据的效率,应以非结构化数据为中心,通过专业的分布式存储系统构建全局统一数据存储底座,优先部署支持文件 / 对象 / 大数据多协议互通 , 业务混合负载、数据缩减技术、高密硬件、全闪存等能力的分布式存储系统,从而让数据存得下、流得动、用得好。