天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型--新增众测(cè)推广文案-->

快科技(jì)9月20日消息,中国(guó)电信宣(xuān)布,天翼云自研的国内首个单集群万卡国(guó)产化全功 能预训练云服务平台,已经正(zhèng)式发布上线,基于华(huá)为昇 腾芯片,并完成了(le)万卡规模Llama3.1-405B大模型(xíng)训练。

Llama3.1-405B作为4000亿参数规模的大模型,在息壤训推服务(wù)平台的支持下,经(jīng)过(guò)多(duō)轮优化,MFU(算力(lì)利用率)达(dá)到国内领先水平。

另外,700亿参(cān)数大模型Llama2-70B在万卡规模下(xià)完成训练,MFU也处于业界领先水平。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型 cms-style="font-L">据悉,天翼云(yún)的这套平台(tái)具备(bèi)万卡纳管 和并行训练能力,基于HPFS PB级并行文件系统(tǒng)、CTCCL RDMA高速卡间互(hù)联(lián)技术、Gang策略与拓扑感知的智(zhì)算容(róng)器调度,以及慧聚自研分布式训练框架(jià)TeleFormers和平(píng)台,实现万卡资源(yuán)纳管、万卡规模并行训练。

其中,天翼云自(zì)研了AI框(kuāng)架Teleformers,对算子、通(tōng)信、数据处理进行(xíng)优化,还有(yǒu)并行策(cè)略的(de)自适应调整,显著提升了大模型训练(liàn)的(de)训练(liàn)效率。

在(zài)目前业内最大参数规模开源单体稠密模型Llama3.1-405B大(dà)模型训练测试中,性能表现达到国际同等水(shuǐ)平(píng)。

算子优(yōu)化方面,针对(duì)昇腾芯片(piàn)的特性,在网(wǎng)络结构层面对诸多高频算子进行了定制化(huà)改(gǎi)造,构建了(le)高性(xìng)能算子集。

比如matmul算(suàn)子,利用昇腾芯片(piàn)的计算亲和性,将算(suàn)子(zi)输入padding到特(tè)定的维度,大幅提升执行效率,从而明显缩短了训练时间(jiān)。

数(shù)据处理和流水线方(fāng)面,通(tōng)过设置合理的数据分片策(cè)略和HPFS条带化优化,结中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型合数据预取与数据下(xià)沉技术,大幅提升(shēng)数据流的处理效率和(hé)稳定性;对预处(chù)理后的数据集进行了二次分 片(piàn)并(bìng)提供就近缓(huǎn)存能力,减少GPU空闲时间。

自适应并行策(cè)略方面,基于(yú)对3D并行(xíng)中各类(lèi)计算单元(yuán)的分析,天翼云设计了(le)多(duō)种自适应的3D并行策略,依据模型规模和硬件资(zī)源的不(bù)同可以自(zì)动选择合适的并行策略,充分利用计算资源和显存资源,缩短模型训练中每轮的迭代时间。

天翼云国产化万卡智(zhì)算中心还有多项技术突破——

天翼云息壤训练(liàn)服务(wù)平台基于软硬件(jiàn)协同设计,提供全链路故障监(jiān)控、基于(yú)主动感知的全链路故障监控和定位、CheckPoint秒级多级高速存储(chǔ)系统、容错优(yōu)雅调度和模型编译(yì)缓存等系统,将万卡规模故障发现和解决问题缩短(duǎn)到业内前沿的分钟级,大幅提升有效训练时间。

自(zì)动(dòng)断点续训系统:

建设丰(fēng)富的故障库,基于此构建了多维故 障感知系统,能(néng)够(gòu)快速主动感知相关故障(zhàng)事件和潜在的故障风险;

通过精准的(de)故障隔离和调度(dù)手段,快(kuài)速隔离处理故(gù)障节点并重新调度新节点接手任务继续训练,实现无(wú)人干预式断点续训,有效减少GPU闲置时间。

高速多级CheckPoint系统:

天翼云设计基于多级存储的高速CheckPoint系统,通过两阶段异步存储(chǔ),实(shí)现高速写入内存,并最(zuì)终异步写入远端系统;

针对断点恢复场(chǎng)景,提(tí)供进程级故障原地快恢和远(yuǎn)端快速恢复能力,最终实现对CheckPoint的秒级读写能力,大幅降低 断点恢复时间、提(tí)升训练效率(lǜ)。

全链路(lù)检测工具链:

天翼云开发了全链路故障(zhàng)监控工(gōng)具链,能够基于主动感知实现全链路的故(gù)障监控和定位。

该工(gōng)具链可以主动发现设备(bèi)故障,并降低训练(liàn)中断(duàn)的频次(cì),确保训练过程的连续性(xìng)和稳定性(xìng)。

【本(běn)文结束】如需转载请务必注明出处:快科技

责任编辑:上方文Q

未经允许不得转载:天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

评论

5+2=