解开算力“紧箍咒”，腾讯云要做AI大模型时代的“卖铲人”

2023-06-28 11:40:43来源：时代在线

大规模算力集群下的网络损耗，是当今AI大模型发展所面临的算力“紧箍咒”之一。

(资料图片仅供参考)

当前，AIGC应用大规模爆发，AI大模型参数量从亿级向万亿级飙升。这些海量的参数分布于多个服务器中的多个GPU之上，背后需要用到成千上万的GPU训练出数十TB级甚至更庞大的数据集。与此同时，这些大量的服务器亦作为链接节点，通过高速网络组成庞大的算力集群，集群中的服务器之间互联互通，共同完成计算和训练任务。

在这一过程中，作为“纽带”的高速网络必须面对更复杂的模型训练效果和算力成本的问题——AI训练过程中若出现信息丢包，将会极大程度地影响训练结果。成本方面，集群式的训练会产生额外的通信损耗，将带来更大的算力损失。

那么，如何能够解开这个“紧箍咒”？关键是能够带来更大带宽、高利用率、信息无损的高速网络。

面对这样的问题，腾讯以自研、软硬一体的高性能计算网络为业界带来解决方案。

6月26日，腾讯云首次对外完整地披露自主研发的“星脉高性能计算网络”。据了解，星脉网络具备业界最高的3.2T通信带宽，能够提升GPU40%的利用率，节省30%-60%的模型训练成本，为AI大模型带来10倍通信性能提升。在此背景下，基于腾讯云新一代算力集群HCC，能够支持10万卡的超大计算规模。

星脉高性能网络带来的突破性成果，得益于腾讯云自研能力的全面提升。当前，腾讯云在交换机、通信协议、通信库以及运营系统等方面，进行了软硬一体的全方位升级和创新。

硬件方面，星脉网络基于腾讯的网络研发平台，采用全自研设备构建互联底座，并实现了自动化部署及配置。

软件方面，腾讯云自研的TiTa网络协议，采用先进的拥塞控制和管理技术，能够实时监测并调整网络拥塞，满足大量服务器节点之间的通信需求，能够确保数据交换流畅、延时低，实现高负载下的零丢包，使集群通信效率达90%以上。

腾讯云还为星脉网络设计了高性能集合通信库TCCL，融入定制化解决方案，使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道，将避免因网络问题导致的训练中断等问题，使通信时延降低40%。

此外，为确保星脉网络的高可用率，腾讯云自研了端到端的全栈网络运营系统，通过端网立体化监控与智能定位系统，将端网问题自动定界分析，让整体故障的排查时间由天级降低至分钟级。同时，大模型训练系统的整体部署时间从19天缩减至4.5天，保证基础配置100%准确。

AI大模型的高速发展正为我们勾画出未来智能时代新发展蓝图，但在畅想未来的时候，我们亦需要脚踏实地，直视所面临的现实问题。腾讯云副总裁王亚晨表示：“星脉网络为大模型而生。它所提供的大带宽、高利用率以及零丢包的高性能网络服务，将助力算力瓶颈的突破，进一步释放AI潜能，全面提升企业大模型的训练效率，在云上加速大模型技术的迭代升级和落地应用。”

关键词：

责任编辑：hnmd003

解开算力“紧箍咒”，腾讯云要做AI大模型时代的“卖铲人”

相关阅读

相关阅读

精彩推荐

阅读排行

精彩推送

推荐阅读