中国电信天翼云完成首个国产GPU万卡 训练!4000亿参数大模型领先
快科技9月20日消息,中(zhōng)国电信宣布,天翼云自研的国内首个(gè)单(dān)集群万卡国产化全功(gōng)能预训练云服务平台,已经(jīng)正(zhèng)式发布上线 ,基于华为昇腾芯片,并完成了万卡规模Llama3.1-405B大模型训练。
Llama3.1-405B作为4000亿参数(shù)规模的大模型,在息(xī)壤训推服务(wù)平台的(de)支持(chí)下,经过多轮(lún)优化,MFU(算力利用率)达到国内领先水平。
另(lìng)外,700亿参数大模型Llama2-70B在万卡规模下完成训练,MFU也处于业界领先水平。
据悉,天翼云的这套平台具备(bèi)万(wàn)卡纳管(guǎn)和并行训练(liàn)能力,基于HPFS PB级(jí)并行文件系(xì)统、CTCCL RDMA高速卡间互联技术、Gang策略与拓扑感知的智算容器(qì)调度,以及慧聚自研分布式训练(liàn)框架TeleFormers和平台,实(shí)现(xiàn)万卡资源纳管、中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先万卡(kǎ)规模并行训练 。
其中,天翼云自研了AI框架(jià)Teleformers,对算子、通信、数据处理进行优化,还有并行(xíng)策略的自适应调整,显著提升了大模型训练的训练效率。
在目前业(yè)内最大参数规模(mó)开源单体稠(chóu)密(mì)模(mó)型Llama3.1-405B大模型训练测试中(zhōng),性能(néng)表现达到国际同等(děng)水平。
算(suàn)子(zi)优化方面(miàn),针对昇腾芯片的特性,在网络结构层面对(duì)诸多高频算子进行了定制化改造(zào),构(gòu)建了高性能算子集。
比如matmul算子,利用昇(shēng)腾芯片的计(jì)算亲和性,将算(suàn)子输入padding到(dào)特定的(de)维度,大幅提升执(zhí)行效率(lǜ),从而明显缩短(duǎn)了训练时(shí)间。
数据处理和流水线方面(miàn),通过设置合理的数据分片策略和HPFS条带化优化,结合数据预取(qǔ)与数据下沉技术,大幅提升数据流的处理效率和稳定性;对预处理后的数据集(jí)进行了二次分片并提供(gōng)就近缓存能力,减少GPU空闲时(shí)间。
自适(shì)应并(bìng)行策(cè)略方面,基(jī)于对3D并行中(zhōng)各类计算单元的分析,天翼云设(shè)计了多种自适应(yīng)的3D并行策略,依据(jù)模(mó)型(xíng)规模和硬件资源的不同可以自动选择合适的并行策略,充分利用计算资源(yuán)和显存(cún)资源,缩短模(mó)型训练中每轮的迭(dié)代时间。
天翼云国产化万卡智算中心(xīn)还有多项技术突破——
天翼云息壤训练服务平台基于软硬(yìng)件协(xié)同设计,提供全链路(lù)故障监控、基于主动感知的全链(liàn)路故障(zhàng)监控(kòng)和定位、CheckPoint秒级多级高速(sù)存储系统、容错优雅调度和模型编译缓存等系统,将(jiāng)万(wàn)卡规(guī)模故障发现和解(jiě)决问题缩短到业内前(qián)沿(yán)的分钟(zhōng)级(jí),大幅提升有效训练时间。
自动断点续训系统:
建设丰富的故障(zhàng中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先)库,基于此构建了多维故障感知系统,能够快速主动感知相(xiāng)关故障事件和潜在的(de)故(gù)障风险;
通过(guò)精准的故障隔离和调度手段,快速(sù)隔离处理故障节(jié)点并重新调度新节点接手任务继续训练,实现(xiàn)无人干(gàn)预式断点续训(xùn),有效减少GPU闲置时间。
高速多级CheckPoint系统:
天翼云设 计基于多级(jí)存储的高速(sù)CheckPoint系统,通过两阶段异步存储,实现高速写入内存,并最(zuì)终异步(bù)写(xiě)入远端系统;
针对断(duàn)点恢复场景,提供进程级故障原地快恢和远端快速恢(huī)复能(néng)力(lì),最终实现 对CheckPoint的秒级读(dú)写(xiě)能力,大幅降(jiàng)低断点恢复时间、提升(shēng)训练效率。
全链路检测工具链:
天(tiān)翼云开发了(le)全(quán)链路(lù)故障监控工(gōng)具中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先链(liàn),能够基(jī)于主动感知实现全链路的故障监控和(hé)定位(wèi)。
该工具链可以主动发现设备故障,并降低训练中断的频次,确保训练过程的(de)连续性和稳定性。
【本文结束】如需转载请务必注明出处:快科技
责任编辑(jí):上方文Q
未经允许不得转载:天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了