国产AI算力:万卡集群,多芯混合
是强哥别划走  2024-08-06 17:20  发布于中国

640.jpg

根据 IT 之家,2023 年 11 月 日,英伟达开发出针对中国区的最新改良版 AI 芯片,包括 HGX H20L20 PCIe L2 PCIeH20 采用台积电的 CoWoS 封装,理论上等于 H100 的 1/6 综合算力性能,而且增加 HBM 显存和 NVLink 互联模块以提高算力成本。

据 SemiAnalysis,虽然 H20 芯片在纸面性能上弱于中国厂商的国产芯片,但凭借 HBM 内存上的优势,其在实际使用过程中仍有一定优势。此外,英伟达具备生态优势,许多公司一开始就使用英伟达的生态系统和软件来训练自己的人工智能模型,切换基础设施也意味着额外的开支和时间。

640.jpg

本文来自“计算机自主可控系列:国产AI算力万卡集群,多芯混合时代来临”。目前互联网厂商是英伟达 H20 购买主力,实际出货时间在 5月份,价格对标华为腾 910目前互联网厂商们购买的规模不算大,每个厂商大概为上千片 GPU

NVIDIA H20 是 NV 目前可在中国销售的符合美国规定的最高性能的产品,预计 5-6 月已规模化出货,在当前我国 AI 战略加速推进,以及 H20 可以供货的窗口期,H20 仍将有持续的需求,2024 年或呈现 H20 和国产 AI 芯片出货量同步高增的景象。

国产算力加速迭代,推进 AI 万卡集群项目

1华为海思:旗下 AI 芯片为腾系列,其中腾 910 面向训练推理场景,腾 310 面向推理场景,也研发开源 AI 框架与异构计算框架,并且结合自身通信技术的基础,腾芯片使用效率不断提升。

2寒武纪:目前自研云端芯片,已发布思元 290370 产品,2022 年 月 WAIC大会,寒武纪董事长、总经理陈天石博士透露思元 590 等在研新品信息,其采用 MLUarch05 全新架构,提供更大内存容量和更高内存带宽,PCIe 接口也较上代实现升级。

3)海光信息:持续迭代深算 DCU,目前已推出深算二号产品,兼容通用的“类CUDA”环境、具备一定生态优势,并与大股东中科曙光合作拓展集群建设能力。

随着海外限制持续升级,发展 AI 芯片等产业自主可控是大势所趋。国产 AI 芯片目前产品迭代升级,并且各家芯片公司联合服务器、交换机等厂商提升卡间互联、集群建设等能力,软件栈架构也协同优化发展,未来有望实现从“能用”到“好用”,国产化比例加速提升。

640.jpg

640.jpg

昇腾处理器性能国内领先,成为国内智算中心的主流选择,截至 2023 年的 18 个国家新一代人工智能创新发展试验区中,已有 12 个城市披露采用昇腾 AI 芯片,占比高达 2/3。此外,海光信息、寒武纪、天数智芯、燧原科技、摩尔线程等国产 AI 芯片公司,也与服务器厂商、地方政府合作建设智算中心,发展自身集群建设能力。

640.jpg

1)阿里平头哥:是阿里巴巴集团的全资半导体芯片业务主体。平头哥拥有端云一体全栈产品系列,涵盖数据中心芯片、IoT 芯片等,实现芯片端到端设计链路全覆盖。

2)字节:表示自研专用芯片,未来将服务于抖音、西瓜视频等视频业务,并通过火山引擎视频云开放给企业客户。

3)百度昆仑芯:前身为百度智能芯片及架构部,布局 AI 加速领域,深耕十余年,已发布昆仑芯 代与 代产品。

AI 芯片市场景气高增,国产化空间广阔

中国 AI 芯片市场规模快速增长。据中商产业研究院,2023 年中国 AI 芯片市场规模预计为 1206 亿元,2024 年有望增长至 2302 亿元、同比+91%,行业市场规模不断增长,景气度较高。

AI 芯片国产化空间广阔。据 IDC2023 年,中国加速芯片的市场规模达到近 140万张,其中 GPU 卡占据 85%的市场份额;从品牌角度来看,中国本土人工智能芯片品牌的出货量已超过 20 万张、占比约 14%。据 IDC2022 年,中国 AI 加速卡(公开市场)出货量约 109 万张,其中英伟达市场份额 85%,华为约 10%,百度约 2%,寒武纪和燧原科技均为 1%因此在国内厂商中,华为市场份额较高。

“多元异构”或将成为服务器和 AI 用户主流选择

中国的服务器厂商积极推进多元异构算力。根据中国信通院报告,异构算力是指CPUGPUFPGAASIC 等多种算力协同的处理体系,能够满足不同场景中的应用需求,实现计算效力最大化。我国主流的服务器厂商均在积极推进多元异构算力,以满足客户对多样 GPU 算力的需求。

 

640.jpg

月 日 Digitimes 报道,为解决人工智能(AI)芯片算力问题,中国 AI 公司正实施“多芯片混合”的策略来提高 AI 计算能力,并避免供应链安全问题。多芯片混合是将不同芯片组成一个训练集群。例如:百度表示其可组合来自不同供应商的 GPU 并将其用于 AI训练。阿里巴巴自 2021 年以来一直致力于“一云多芯片”解决方案,且阿里云已开始转向使用基于以太网的高性能网络。

 

文章转载自:架构师技术联盟

全部回复(
回复
回复