今天,在华为全联接大会 2024 上,华为云发布了 ai 原生云基础设施架构 cloudmatrix,以满足 ai 时代企业对于算力的大规模、高效稳定、弹性灵活的需{ Z @ X G ` |求。
1. 华为云 AI 原生云基础设施架构 Cq # / 9 K ]loudMatrixo @ o \ X O n 6 正式发布
如今,AI 算力需求高速增@ 1 v L n 1 l |长,正在超越对通用算力的需求。构建弹性、高效的多元算力基础设施是k w h w ] B Q AI 发展的关键。
为了进一步提升 AI 原生基础设施的效能,华为云推出 AI 原生云基础设施 CloudMatrix,V u 8 m J将 CPU、NPU、DPU、存储和内存等资源全部互联和池化,构建「一切可N b / [池化、一切皆对等、一切可组合」的分布式对G \ P等全互联架构,实现了单体算力向矩阵算力的演进,为客户提供澎湃的 AI 算力。
- 一切可池化:华为通过 CPU、NPU 为客户提供强大Y L z的通用计算和智能计算。同时* D ),华为云分布式 QingTian 技术帮助突破单服务器的能力边界,将服务器内的 CPU、NPU、DPU、存储和内存等多样资源的统一池化并灵活配置,以此形成大规模、紧耦合的多元算力池化架构,算力得到大幅提升。
- 一切皆对等:CloudMatrix 通过超高带宽 Scalg m X *eUp 网络从「传统以太网」向「共c 4 ; M Q享总线以太网」演进,实现池化算力的高速互联,同时通过自适应拓扑感知打破集群线性度瓶颈。华为云在传统算力集群 ScaleOut 网络基础上,结合 ScaleUp 超高带宽网络,将资源互联带宽提升了一个数量级。新的网络协议实现跨物理服务器的统一标识、统一的访问和消息通信机制。从而实现 CPU、NPU、存储 内存等多样资源的跨服务器统一池化。通过资源全部对等连接,既可以水平扩展,j I y x t g J l K更可以垂直扩4 8 7展,打破计算集群线性度的瓶颈( + #,能够降大模型训练集群的r b W e T ;线性度提升至 95%,网络故障分钟级恢复。
- 一切可组合:CloudMatrix 可以按需组合多样化q s ~ # U K Y算力资源,并且根据应用需求灵活调整。在统一多元算力逻辑池化、高速全对等互联的基础上,通过瑶光智能云脑对云上资源进行多元算力统一建模、灵活调度组合,按需提供给应用。覆盖大模型和小Z u n q $ O N G模型的训练和推理,同时,还能够用在数据分析、媒体内容生成等更多应用场景。
- 华为f 3 g K ( W云宣布,基于 CloudMatrix 的新一代% ~ :昇腾 AI 云( f B x ?服务将于年底上线。
以上就是华为云AI原生基础设施CloudMatrix亮相全联接大会的详细内容!