算力服务统筹异构算力资源,支撑大模型等新应用实践落地

来源:中国信息通信研究院


随着大模型、元宇宙等算力新应用场景的不断丰富,各行业对多样化异构算力,低时延确定性网络,分布式存储的需求持续攀升,算力服务在计算、网络、存储领域的资源布局、基础架构、关键技术等方面也在不断演进。

多样算力繁荣发展,计算架构升级、资源一体编排支撑异构算力赋能算力新应用。大模型等新应用的发展,基于人工智能技术的训练、推理,支撑虚拟现实技术的建模、渲染等技术研究再度引起产业关注,也对智算、超算、边缘计算的需求提上了新的高度。算力服务在计算资源性能提升、功能完善的角度不断探索,形成了良好支撑算力新应用创新发展与落地验证的技术路线。效率提升上,算力服务支撑计算中心从 CPU 向数据转变,DPU 释放 CPU 算力缩短新应用验证周期。在 CPU 面临性能进一步提升的瓶颈时,以数据为中心的理念应运而生。由数据处理芯片 DPU 承载网络、存储等管理能力,将 CPU 算力解放出来,以实现同等规格计算资源的更多算力供给,提升新应用运行效率,降低验证成本。目前产业界已有相应的落地方案,如云豹智能发布云霄 DPU,提出可编程通用 DPU 框架理念,并落地多个应用场景;中科驭数发布 DPU 芯片 K2,能够实现 1.2 微秒低时延和最高200G 网络带宽。同时为进一步降低引入 DPU 后的计算架构升级成本,产业内也开始探索通过统一的 DPU 开发框架屏蔽厂商差异,提供一体化的算力卸载服务。功能完善上,算力服务内涵范围从通用计算向智算、超算延伸,通过平台化建设加速行业赋能。2021 年以来,我国智算、超算增势强劲。据中国信通院《中国算力发展指数白皮书(2022年)》统计,2021 年智能算力成为我国算力规模快速增长的关键驱动力,增速达 85%,在我国算力占比重超 50%。超算算力稳步提升,算力规模增速达 30%,在行业实践方面的贡献日益凸显。算力服务也逐渐扩展到智算、超算领域,并通过构建计算平台的方式统一纳管不同厂商、不同指令集、不同规格的计算资源,实现智算、超算服务化统一供给。阿里云 2022 年推出飞天智算平台,可运行在 X86、GPU、ARM 等多种芯片类型的服务器上,支持多种处理器混合部署统一调度,并提供数据治理、预训练模型等能力,AI 训练效率提升 11倍,推理效率提升 6倍,加速 AI 应用开发。

算力网络打破算力与应用边界,为算力服务提供端到端的确定性保障。随着人工智能、物联网、数字孪生等算力应用场景的多元化发展,算力网络从中心向边缘和端侧泛在延伸,成为实现云、边、端算力的高效协同,提升算力服务水平的关键能力之一。一方面,算力网络以先进路由技术为能力底座,激发泛在的算网资源调度活力。以SRv6 为例,可编程网络技术将算力信息携带进入网络,通过网络路径、业务、转发行为三层可编程空间,使报文随时根据业务的调整进行精确匹配,提供灵活的网络可编程能力。综合考虑计算节点、网络负载和业务需求,更好地实现算力服务端到端的连接与协同调度。中国移动积极构建统一算网IP底座,推动 SRV6 技术创新,与中兴通讯联合研究 G-SRv6 技术提高数据转发效率,助力算力网络平滑演进。另一方面,确定性网络、无损网络提供算力服务高质量保障。确定性网络如 TSN、DetNet、FlexE,能够根据业务类型与级别提供差异化的确定性服务,有效满足人工智能、工业互联网、智能服务业等垂直行业对算力网络低时延、可靠性和稳定性的需求,成为算力服务产业向高质量发展转型升级的重要保障。目前,确定性算力网络率先在山东省内展开试点,已建成全球第一张确定性网络,将核心节点的时延抖动控制在 0.02ms 以内,赋能实体产业发展。

存储架构升级,分布式存储为算力服务注入高效、弹性、泛在新动能。新应用对存储能力同样提出了挑战,在数据量、计算量激增的算力服务应用场景下,传统的集中式存储难以支撑计算任务高速读写的需求,分布式存储的出现为算力服务的发展带来了新的转机。从性能上看,分布式存储提供并行读写解决方案,为算力服务带来成倍性能提升; 从扩展性看,分布式存储通过更小粒度的存储资源虚拟化供给方式,良好支撑算力服务在不同计算量级应用场景下的存储需求,避免资源浪费,实现数据高效流转,从延伸性看,分布式存储可支持算力服务计算任务就近接入,从物理路径上优化数据传输时延,进一步推动算力服务泛在发展。