首页 > 商业 > 正文

GPT爆火算力正“慌”,腾讯云发布最新高性能大模型算力集群:环球观天下

2023-04-14 18:38:05  

文:刘玉梓

今年以来,ChatGPT火爆出圈,继而大量 AIGC 产品横空出世,这些会聊天、写代码、写小说以及解答难题的“GPT们”,在社交媒体上掀起新一轮AI疯狂浪潮。然而,ChatGPT-4发布仅仅5天,就发生了“全球宕机12小时”事件,用户的使用次数随后受到了明显的算力限制:从每4小时100条信息变成了每3小时25条。


(资料图)

事实上,“ChatGPT-4崩了”只是全球算力紧张的一个缩影。不仅仅是ChatGPT,像自然语言合成、自动驾驶、图形图像处理等其他众多AI应用,往往伴随着大规模、长时间的 GPU 集群训练任务。而这些大模型训练,都离不开“巨额”算力的底层支撑。据安信证券研报粗略推论,图像识别的所需算力是文字推理部分所需算力的2-4倍。随着未来图片、视频等模型的不断开放,目前对应的算力及基础设施需求有望持续大规模增长。

一场算力“危机”似乎正在到来,亟需攻克大集群场景下的算力损耗问题,为大模型训练提供更可靠的智算能力支撑。4月14日,腾讯云正式发布新一代高性能计算集群。该集群采用腾讯自研的星星海服务器,服务器之间采用业界最高的3.2T超高互联带宽,为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

实测显示,腾讯云新一代集群的算力性能较前代提升高达3倍,是国内性能最强的大模型计算集群。未来,新一代集群不仅能服务于大模型训练,还将在自动驾驶、科学计算、自然语言处理等场景中充分应用。

最新高性能大模型算力集群

在数字经济时代,算力是重要底座支撑和关键技术,其作为一种全新的生产力的作用日益凸显。人们逐渐发现,单体服务器算力有限,需要将大量服务器通过高性能网络相连,打造成大规模算力集群。

去年10月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于本次发布的新一代集群,训练时间将进一步缩短至4天。

通过对处理器、网络架构和存储性能的全面优化,腾讯云攻克了大集群场景下的算力损耗问题,为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。

随着集群规模扩大,由于计算节点间存在海量的数据交互需求,通信性能会直接影响训练效率。令人惊喜的是,腾讯自研的星脉网络,为新一代集群带来了业界最高的3.2T的超高通信带宽,将集群整体算力提升20%,让超大算力集群仍然能保持优秀的通信开销比和吞吐性能,并提供单集群高达十万卡级别的组网规模,支持更大规模的大模型训练及推理。

除了在网络层面下功夫,腾讯云也在存储层面寻找突破点。在大模型训练场景下,几千台计算节点同时读取一批数据集,需要尽可能缩短加载时长。而腾讯云自研的文件存储、对象存储架构,具备TB级吞吐能力和千万级每秒读写次数,充分满足大模型训练的大数据量存储要求。

与此同时,针对大模型训练场景,新一代集群集成了腾讯云自研的TACO Train训练加速引擎,对网络协议、通信策略、AI框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。

新一代算力集群将应用于多场景

政府工作报告指出,要增强科技创新引领作用,依靠科技创新推动实体经济高质量发展。人工智能已在自动驾驶、智慧城市等领域广泛应用,成为改善生活质量、推动产业优化升级的重要驱动力。近两年,国内科技企业纷纷加码巨量模型的研发,打造更前沿的AI能力。随着数据体量以指数级不断增长,大模型进入万亿参数时代,更加需要强大的计算能力支持。

腾讯混元AI大模型,覆盖了自然语言处理、计算机视觉、多模态等基础模型和众多行业、领域模型,背后的训练框架AngelPTM也已通过腾讯云对外提供服务,帮助企业加速大模型落地。在腾讯云上,企业可基于TI 平台的大模型能力和工具箱,结合产业场景数据进行精调训练,提升生产效率,快速创建和部署 AI 应用。

领先的算力性能背后,是腾讯在云计算领域长期的技术积累,和在基础软硬件研发上的长期投入。此前,腾讯多款自研芯片已经量产。其中,用于AI推理的紫霄芯片、用于视频转码的沧海芯片已在腾讯内部交付使用,性能指标和综合性价比显著优于业界。

据悉,紫霄采用自研存算架构,增加片上内存容量并使用更先进的内存技术,消除访存能力不足制约芯片性能的问题,同时内置集成腾讯自研加速模块,减少与CPU握手等待时间。目前,紫霄已经在腾讯头部业务规模部署,能提供高达3倍的计算加速性能,以及节省超过45%的整体成本。

目前,腾讯云的分布式云原生调度总规模超过1.5亿核,并提供16 EFLOPS(每秒1600亿亿次浮点运算)的智算算力。未来,新一代集群不仅能服务于大模型训练,还将在自动驾驶、科学计算、自然语言处理等场景中充分应用。

从春天出发,腾讯云以新一代集群为标志,构建起了包括自研芯片、星星海自研服务器和分布式云操作系统遨驰等前沿产品在内的完整自研产品体系。未来,腾讯云将通过软硬一体的方式,打造面向AIGC的高性能智算网络,持续加速全社会云上创新。

关键词:

责任编辑:hnmd003

相关阅读

相关阅读

推荐阅读