首页 > 商业 > 正文

解开算力“紧箍咒”,腾讯云要做AI大模型时代的“卖铲人”

2023-06-28 11:40:43来源:时代在线  

大规模算力集群下的网络损耗,是当今AI大模型发展所面临的算力“紧箍咒”之一。


(资料图片仅供参考)

当前,AIGC应用大规模爆发,AI大模型参数量从亿级向万亿级飙升。这些海量的参数分布于多个服务器中的多个GPU之上,背后需要用到成千上万的GPU训练出数十TB级甚至更庞大的数据集。与此同时,这些大量的服务器亦作为链接节点,通过高速网络组成庞大的算力集群,集群中的服务器之间互联互通,共同完成计算和训练任务。

在这一过程中,作为“纽带”的高速网络必须面对更复杂的模型训练效果和算力成本的问题——AI训练过程中若出现信息丢包,将会极大程度地影响训练结果。成本方面,集群式的训练会产生额外的通信损耗,将带来更大的算力损失。

那么,如何能够解开这个“紧箍咒”?关键是能够带来更大带宽、高利用率、信息无损的高速网络。

面对这样的问题,腾讯以自研、软硬一体的高性能计算网络为业界带来解决方案。

6月26日,腾讯云首次对外完整地披露自主研发的“星脉高性能计算网络”。据了解,星脉网络具备业界最高的3.2T通信带宽,能够提升GPU40%的利用率,节省30%-60%的模型训练成本,为AI大模型带来10倍通信性能提升。在此背景下,基于腾讯云新一代算力集群HCC,能够支持10万卡的超大计算规模。

星脉高性能网络带来的突破性成果,得益于腾讯云自研能力的全面提升。当前,腾讯云在交换机、通信协议、通信库以及运营系统等方面,进行了软硬一体的全方位升级和创新。

硬件方面,星脉网络基于腾讯的网络研发平台,采用全自研设备构建互联底座,并实现了自动化部署及配置。

软件方面,腾讯云自研的TiTa网络协议,采用先进的拥塞控制和管理技术,能够实时监测并调整网络拥塞,满足大量服务器节点之间的通信需求,能够确保数据交换流畅、延时低,实现高负载下的零丢包,使集群通信效率达90%以上。

腾讯云还为星脉网络设计了高性能集合通信库TCCL,融入定制化解决方案,使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道,将避免因网络问题导致的训练中断等问题,使通信时延降低40%。

此外,为确保星脉网络的高可用率,腾讯云自研了端到端的全栈网络运营系统,通过端网立体化监控与智能定位系统,将端网问题自动定界分析,让整体故障的排查时间由天级降低至分钟级。同时,大模型训练系统的整体部署时间从19天缩减至4.5天,保证基础配置100%准确。

AI大模型的高速发展正为我们勾画出未来智能时代新发展蓝图,但在畅想未来的时候,我们亦需要脚踏实地,直视所面临的现实问题。腾讯云副总裁王亚晨表示:“星脉网络为大模型而生。它所提供的大带宽、高利用率以及零丢包的高性能网络服务,将助力算力瓶颈的突破,进一步释放AI潜能,全面提升企业大模型的训练效率,在云上加速大模型技术的迭代升级和落地应用。”

关键词:

责任编辑:hnmd003

相关阅读

相关阅读

推荐阅读