将英伟达拉下马，芯片公司出招

如果您希望可以时常见面，欢迎标星(xīng)收藏哦~

来源：内容(róng)编译自(zì)IEEE，谢谢。

很难夸大英伟(wěi)达在AI领域的主导(dǎo)地位。成(chéng)立于1993年的英伟达最初在个人计算机(jī)图形处理单元（GPU）领域崭露头角。然而，是公(gōng)司(sī)的AI芯片，而非PC图形硬件，推(tuī)动英(yīng)伟达跻(jī)身全球最有价值公司之列。事实证(zhèng)明，英(yīng)伟达的GPU在AI方面也表现出色。因此，其股价(jià)自2020年初以来已经增长了15倍以上，收入从(cóng)2019财年(nián)约120亿美元跃升至2024年的600亿美元；这家AI巨头的领先芯片如沙漠中的水一样稀缺且备受(shòu)追捧。

"获取GPU对AI研究人员(yuán)来说已经成了巨大的担忧，以至于他们每天都在思考这个问题。因为没有它(tā)们，即使拥有最好的模型，他们也无法(fǎ)尽情发挥，”谷歌DeepMind的AI数据负责人詹妮弗(fú)·普伦德基（Jennifer Prendki）表示。普(pǔ)伦(lún)德基依赖英伟(wěi)达的(de)程度较(jiào)少，因(yīn)为谷歌(gē)拥有(yǒu)自己(jǐ)的AI基础设施。但其他科技巨(jù)头，如微软和亚马逊，是英伟达最大(dà)的客(kè)户之一，并(bìng)继续以极快的速度购买其GPU。据新闻报道，美国司法部正在就英伟达芯片分配和获取(qǔ)问题进行反垄(lǒng)断调查。

英伟达在AI领域的主导地位，与(yǔ)机器学习的(de)爆发一样，是最(zuì)近的现(xiàn)象。但这种成功源自(zì)公司数十(shí)年来的努力，旨(zhǐ)在将(jiāng)GPU建立为除渲染图形(xíng)外对(duì)其他(tā)任务也有用(yòng)的通用计算硬件。这一努(nǔ)力不仅包(bāo)括(kuò)公(gōng)司GPU架构的演变，后者现在拥有能够加速(sù)AI工作负(fù)载的“张量核心”，还包括其软件平台CUDA，这(zhè)为开发人员利用硬(yìng)件优势提供了(le)支(zhī)持。

“他(tā)们确保每个从大学毕业的计算机科学专业学生都掌(zhǎng)握(wò)了CUDA编程，”Moor Insights & Strategy的数据中心首席分析师Matt Kimball说。“他们提供工具和培训，并在研究上投入了大(dà)量资金。”

CUDA于2006年发布，帮助(zhù)开(kāi)发人员使用英伟达GPU的众多核心。这(zhè)在加速高度并(bìng)行的计算任务(wù)方面至关(guān)重要。英伟达(dá)在建立CUDA生态系统上的成功使其硬件成为(wèi)AI开发的最小阻力路径。虽然英伟达芯片供不应求，但比AI硬件更难找(zhǎo)到的，可能(néng)是经验丰富的AI开发人员——而许(xǔ)多开发人员都熟悉CUDA。

这给了英伟达一(yī)条深厚(hòu)且广泛的护城河(hé)来(lái)保护其(qí)业务，但这并不意味着它缺少(shǎo)准备(bèi)进攻的竞争对手，这些对手的策略各不(bù)相同。虽(suī)然像AMD和英(yīng)特尔这样的老牌公司正在试图(tú)使用他们自己的(de)GPU来挑战英伟达，但像(xiàng)Cerebras和SambaNova这样的初创公司已经(jīng)开发出能够显著提高生成式AI训练和推理效率的创新芯片架(jià)构。它们是最有可(kě)能挑战英伟达的竞争对手。

AMD：另一位GPU制造商

优势：AMD的GPU是说服力十(shí)足的英伟达替代品(pǐn)

劣势：软(ruǎn)件生态系统无法(fǎ)与英伟达的CUDA相(xiāng)抗衡

在图(tú)形芯片领域，AMD与英伟达的战(zhàn)斗已持续了近二十年。这是一场有时不平衡的竞争。在图形处理方面，AMD的GPU在销售和心智占有率上很(hěn)少击败英伟达。然而，AMD的硬件有其优势。公司的广泛GPU产品组合涵盖了从笔(bǐ)记本电(diàn)脑的集成(chéng)图形到拥有1500亿个晶体管的AI专用数(shù)据中心GPU。该公司还早期支持并采用了高带宽内存（HBM），这是如今全球最先进(jìn)GPU所必需(xū)的一种内存(cún)形式。

“如果你(nǐ)看硬件(jiàn)……它(tā)与(yǔ)英伟达相比(bǐ)并不逊色，”Kimball说道(dào)，他指的是AMD的Instinct MI325X，这是一款英伟达H100的竞争对手。“AMD在这款芯(xīn)片的(de)设计上做得非常(cháng)出色。”

MI325X计划(huà)于今年年底推出，拥有超过1500亿个晶体管和288GB的高带宽内存，尽管其(qí)在实际应用中的表现(xiàn)尚待验证。MI325X的前身MI300X获得了微软的好评(píng)，微软使用包括MI300X在(zài)内的AMD硬件来处理部分ChatGPT 3.5和4的服务。Meta和戴尔也部署(shǔ)了MI300X，Meta在其最新的大语言(yán)模型Llama 3.1的部分开发中使用了这些芯片。

AMD仍有一个障碍需要克服：软(ruǎn)件。AMD提供了一个(gè)开源平台ROCm来帮助开发(fā)人员为其GPU编程，但它的(de)人气(qì)不如CUDA。AMD意识到了这一弱点，并在2024年(nián)7月同意收购欧洲最(zuì)大的私有AI实(shí)验室Silo AI，该实验室在使用ROCm和(hé)AMD硬件进行大规模AI训练方面有经验。AMD还计划收购ZT Systems，一家在数据中心(xīn)基础设施方面(miàn)拥(yōng)有专长的公(gōng)司，以帮助AMD更(gèng)好地为部署(shǔ)其硬件(jiàn)的客户服务。打造一个能够与CUDA匹敌的对手绝非易事，但AMD正在全力以(yǐ)赴。

英特尔：软件成功

优势(shì)：Gaudi 3 AI加速器表现强劲

劣势：下一款大(dà)AI芯片要到2025年底才会推出

英特尔(ěr)的挑(tiāo)战与AMD相反。英特尔(ěr)缺乏英(yīng)伟达的CUDA和AMD的ROCm的直接匹配产品(pǐn)，但其于2018年(nián)推出了一个开源统一(yī)编程(chéng)平台OneAPI。与(yǔ)CUDA和ROCm不同，OneAPI涵盖多个类别的硬件，包括CPU、GPU和FPGA。因此，它可以帮助开发人员在任何(hé)英特尔硬件上加速AI任务（以及(jí)其他(tā)任务）。

另一方面，硬件是一个弱点，至(zhì)少与 Nvidia 和 AMD 相比是如此。英特尔的 Gaudi AI 加速(sù)器是英特(tè)尔2019 年收购 AI 硬件(jiàn)初创公司(sī) Habana Labs的成(chéng)果，取得了进展，最新的Gaudi 3 的性能可与 Nvidia 的 H100 相媲美。

然而，目前(qián)尚不清楚英特尔的下一代(dài)硬件版本究竟会是什么样子(zi)，这引起了一些担忧。Moor Insights & Strategy 创始(shǐ)人帕特里克·穆尔黑(hēi)德 (Patrick Moorhead ) 表示：“Gaudi 3 非常强大。”但他(tā)表示，截至 2024 年 7 月(yuè)，“还没有 Gaudi 4”。

相反，英特尔计划转向一(yī)款雄心勃勃的芯片，代号为 Falcon Shores，该芯(xīn)片采用(yòng)基于区块的模块化架构，结合了英特尔x 86 CPU 内核和(hé) Xe GPU 内核；后者是英特尔(ěr)最近进军图形(xíng)硬件领域的一部(bù)分。不过，英特尔尚未(wèi)透(tòu)露有(yǒu)关 Falcon Shores 架构(gòu)和性能的详细信息，预计要(yào)到(dào) 2025 年(nián)底才会发布。

Cerebras：越大(dà)越好

优点：晶圆级芯片每颗芯片提供强大的性能和内存

缺(quē)点：由于尺寸和成本，应用领域有限

可以肯定的是，AMD和Intel是Nvidia最具可信度的挑战者。它们在设计(jì)成(chéng)功(gōng)芯片和构建编程(chéng)平台方面有着悠久的历史。但在规模较小(xiǎo)、未经验证的玩家中，有一(yī)个脱颖而出：Cerebras。

这家(jiā)公司专(zhuān)注于(yú)超级计算机的AI，于2019年推出了Wafer Scale Engine，这是一块巨(jù)大的晶圆级硅片，拥有1.2万亿(yì)个晶体管。最新版本Wafer Scale Engine 3将这一数字提升到了4万亿个晶体管。作为比较，Nvidia最新最大的GPU——B200，"仅"拥有2080亿个晶体管。Cerebras围绕这个晶圆级怪物构(gòu)建的(de)计算机CS-3，正是Condor Galaxy 3的核(hé)心(xīn)，该超级计算机将由64台CS-3组成(chéng)，处理高达8 exaflop的AI计算任(rèn)务。G42，一家总部位于阿布(bù)扎(zhā)比(bǐ)的企业集团，计划使用该(gāi)系统训练(liàn)未来(lái)的前沿大型语言模(mó)型。

“这有点偏向于特定的(de)应用(yòng)，而不是通用(yòng)型的，”Bernstein Research的高级分(fēn)析师Stacy Rasgon说。“并不是每个人都(dōu)会购买这些计(jì)算机。但(dàn)他们有一些客户，比如美国国防部和Condor Galaxy 3超级计算(suàn)机。”

Cerebras的(de)WSC-3在大多(duō)数情况下不(bù)会挑战Nvidia、AMD或Intel的硬件；它太大、太昂贵(guì)、太专业(yè)化了。但它可能在(zài)超级计算机领域(yù)为Cerebras提(tí)供独特优势，因为没有其他公司设计晶圆规模的芯片。

SambaNova：

为Transformer而生的(de)变形架构

优点：可配置的架构有助于开发人(rén)员优化AI模型的(de)效率

缺点：硬(yìng)件还需要证明(míng)对大众(zhòng)市场的(de)相关性

成立于2017年的(de)SambaNova是另一家利用非传统芯片架构解决AI训练问题的芯片设计公司。其旗舰产品SN40L采用公司所谓的“可重构数据流架构(gòu)”，由存储器和计算资源的模块组(zǔ)成。这些模块之间的连接可以根据(jù)需要(yào)进行动态调整，以促(cù)进(jìn)大型神经(jīng)网络的数据快速传输。

Prendki认为，这种可定制的硅(guī)片在训练大型语言模型时可能(néng)会(huì)非(fēi)常有用，因为AI开发人员可以根据不同(tóng)的模(mó)型来优化硬件。没有其他公(gōng)司提供这样的(de)功能。

SambaNova还(hái)通(tōng)过其配(pèi)套的软件栈(zhàn)SambaFlow取得了成功。Moorhead说：“在基础设施层(céng)面(miàn)，SambaNova的平台表现出色。”SambaFlow可以分析(xī)机器学习模型，并帮(bāng)助(zhù)开发人员重(zhòng)新(xīn)配置SN40L以加速模型的性能。虽然SambaNova还有很多要证明的地方，但其客户(hù)包括(kuò)软银和模拟器件公司(sī)。

Groq：专(zhuān)注于功能

优点：出色的AI推理性能

缺(quē)点(diǎn)：目前仅限(xiàn)于推理应用

另一家(jiā)在AI硬(yìng)件上有独特创新的公司是(shì)Groq。Groq的策略是紧密结合内存和计算(suàn)资源，以(yǐ)加速大型语言模型对提示的响应速度。

“他们的架构(gòu)非常注重(zhòng)内(nèi)存。内存与处理器紧密(mì)耦(ǒu)合(hé)。你需要更多的节点，但每个(gè)token的价格和性能简直疯狂，”Moorhead说道。“token”是模型处理(lǐ)的基本数(shù)据单位；在大型语言模(mó)型中，通(tōng)常是一个词或部(bù)分(fēn)词(cí)。更令人印象深刻的是，Groq的(de)芯片——语(yǔ)言处理单元推理引(yǐn)擎——采用的是GlobalFoundries的14纳米技术，而这已经是比用(yòng)于制造Nvidia H100的台(tái)积电技术落后几代的工艺。

2023年7月，Groq展示了其芯片的推理速度，运行Meta的Llama 3 80亿参数大型语言模型时，每秒超过1250个(gè)token。这一表现甚(shèn)至超过了SambaNova的演示(shì)，其推理速度超过每(měi)秒1000个token。

高通：功(gōng)耗至上

优点：广(guǎng)泛的AI功能芯(xīn)片(piàn)组合

缺点：缺(quē)少(shǎo)用(yòng)于AI训练的大型前沿芯片

将英伟达拉下马，芯片公司出招yle="font-L">高通以Snapdragon系统级(jí)芯片闻名，这款芯片为诸如三星(xīng)Galaxy S24 Ultra和OnePlus 12等流行(xíng)的安(ān)卓手机提供动力。高通是一家可以(yǐ)与AMD、Intel和 Nvidia抗衡的巨头。

但与这些竞争对手不同(tóng)，高通将其AI战略更多地集中在特定(dìng)任务(wù)的AI推理和能效上。AI基准组织MLCommons的创(chuàng)始成(chéng)员、AI优化公司Krai的CEO Anton Lokhmotov表示，高通(tōng)在关键的基(jī)准测(cè)试中显著提(tí)高(gāo)了其Qualcomm Cloud AI 100服务器的(de)推理能力。在ResNet-50图像分类基(jī)准(zhǔn)测试中，这些服务器的性能从180样本/瓦(wǎ)提升至(zhì)240样本/瓦，使用的硬件基本保持不变。

在设(shè)备上处理本地AI任务而无需连接到(dào)云端的高效AI推理也是(shì)一个优势，Lokhmotov说。一个典型例子是微软的(de)Copilot Plus PC。微软和高通与戴尔、惠普和(hé)联想等笔记(jì)本制造商合作，首批配备高通芯片的Copilot Plus笔记本电脑已于(yú)7月上市。高通(tōng)还在智能手机和(hé)平板电脑市(shì)场占据强大地位，其Snapdragon芯片为三星、OnePlus和摩托罗拉等设(shè)备提(tí)供动力。

高通还(hái)是AI驾驶辅助和自动驾驶平台(tái)的主要玩家。2024年初，现(xiàn)代旗下的Mobius部(bù)门(mén)宣布与高通合作，使用Snapdragon Ride平台——该平台是Nvidia Drive平台的竞争对手——用于高(gāo)级驾驶辅助(zhù)系统。

超(chāo)大规模数据中心：

为功耗定制智能

优点(diǎn)：垂(chuí)直整合有助(zhù)于设计

缺点：超大规模数据(jù)中心可能会(huì)优(yōu)先(xiān)满(mǎn)足自身需求和使用

超大(dà)规模数据中心(xīn)（Hyperscalers）——那些部署硬件规(guī)模庞大的云计(jì)算巨头——与“大科技”同义。亚马逊、苹果、谷歌、Meta和微(wēi将英伟达拉下马，芯片公司出招)软都希(xī)望尽(jǐn)快部署AI硬(yìng)件(jiàn)，既用于自身使用，也为其云计算客户服务。为加速这一(yī)进程，他们都在内部设计芯片。

谷歌比竞(jìng)争对手更早投资于AI处理器：该(gāi)公司于2015年首次宣布的Tensor Processing Units（TPU）如今支撑(chēng)着其大部分AI基础设施。第六代TPU Trillium于2023年(nián)5月宣布，并成为谷歌AI超级计算机的一部分，这是一项针对公司处理AI任务的(de)云服务。

Prendki说，谷歌的TPU为公司在追求AI机会时提供了优势。“我很(hěn)幸运，不用费(fèi)心考虑芯片从哪里来，”她说。然而(ér)，TPU的使用并(bìng)没有完(wán)全消除供(gōng)应(yīng)紧张，因为谷歌的不同部门仍然(rán)需要共享资源(yuán)。

谷(gǔ)歌已经不再孤单(dān)。亚马逊拥有两(liǎng)款自研芯片，Trainium用于训练，Inferentia用于推理。微软拥有Maia，Meta拥有MTIA，而据传苹果也在开发处理其云基础(chǔ)设施中AI任(rèn)务的硅片。

这些超大(dà)规模数据中心的芯片并未直接与Nvidia竞(jìng)争，因为他们不向客(kè)户销售(shòu)硬件，但他们确实通过(guò)云服务提供硬(yìng)件访问，比如谷歌的AI超级计算机、亚马逊的AWS和微(wēi)软(ruǎn)的Azure。在(zài)许(xǔ)多情况下，超大规模数(shù)据中心提供的服务既运行在自家硬件上，也运(yùn)行在Nvidia、AMD和(hé)Intel的(de)硬件上(shàng)；而微软则被认为是Nvidia的最(zuì)大客户。

中国芯片：不确定的未来

另(lìng)一类(lèi)竞争者的诞(dàn)生并非源自技术需求，而是地缘政治现实。美国对(duì)AI硬件出口的限制(zhì)阻止了(le)芯片制造商(shāng)向中国公司出售最新、最强大的芯片。作为回应，中国公司正在设计自有AI芯片。

国内科技巨头(tóu)所推出的加速器是Nvidia H100的替代品，然而，代工厂的产(chǎn)量问题据称(chēng)限制了(le)供应，此外，巨头还在销(xiāo)售“AI一体机”解(jiě)决方(fāng)案，旨在为中国企业提供本地化的AI基础设(shè)施。

为了绕(rào)过美国(guó)的出口管(guǎn)制规定，中国行(xíng)业可(kě)能会(huì)转向替代技术。例(lì)如，中(zhōng)国研(yán)究人员在光子芯片方面取(qǔ)得了(le)进展，这种芯片利用光而不是电荷来进行计算。“光束的(de)优势(shì)在于你(nǐ)可以让两(liǎng)束光交叉，”Prendki说道。“因此，它(tā)减少了在硅芯片上通常遇到的限制，不能交(jiāo)叉路径。你可以使电路更(gèng)复杂，且成本(běn)更低。”虽然光(guāng)子芯片仍处(chù)于非(fēi)常早期的阶段，但中国的投资可能会(huì)加速其发展。

更多空间

显然，Nvidia 并不(bù)缺乏竞(jìng)争对手。同样明显的是，在未来(lái)几(jǐ)年内，没有(yǒu)一家竞(jìng)争对手能够挑战 Nvidia，更别说击败它了。本(běn)文(wén)采访的(de)所有人都同意(yì)，Nvidia 目(mù)前占据着无与伦比的主导地(dì)位，但这并不意味(wèi)着它将永远排挤竞争对手。

“听着，市场(chǎng)需要(yào)选择，”Moorhead 说。“如果到(dào) 2026 年，我无法想象 AMD 的市场份额会低于 10% 或 20%，英特尔也是如(rú)此。通(tōng)常，市场(chǎng)喜(xǐ)欢三家公(gōng)司，而(ér)我们有三(sān)个合(hé)理的竞争对手。”Kimball 表示(shì)，与此同时(shí)，超大规模公司可能会挑(tiāo)战 Nvidia，因(yīn)为他们将更(gèng)多的(de) AI 服务转(zhuǎn)移到内(nèi)部硬件上。

然后还有不确(què)定因素(sù)。Cerebras、SambaNova 和 Groq 是众多初创公司中的佼佼者，它(tā)们希望通过新颖的解决方案蚕食 Nvidia 的市场份额。此(cǐ)外，还有数十家其(qí)他公司加入其中，包(bāo)括 d-Matrix、Untether、Tenstorrent和Etched，它们都寄希望于针对生成式 AI 优化的新芯片架构。这些(xiē)初创公司中(zhōng)可能有许(xǔ)多(duō)会失(shī)败，但也许下一个 Nvidia 会从幸存者中脱颖而出。

https://spectrum.ieee.org/nvidia-ai

专注半(bàn)导体领域更(gèng)多原创内容

关注全球半导体产业动向与趋势

*免责声明：本文由作者原创。文(wén)章内(nèi)容系(xì)作者个人观点，半导体行业观察转载仅(jǐn)为了传达一种不同的观点(diǎn)，不(bù)代表半导体(tǐ)行业观(guān)察(chá)对该观点赞同或(huò)支(zhī)持，如(rú)果有(yǒu)任何异议，欢迎联系半导体行业观察。

今天是《半导体行业(yè)观(guān)察(chá)》为您分享的第3888内容，欢迎关注。

『半导(dǎo)体第一垂直媒体(tǐ)』

实时专业(yè) 原创深度

公众号ID：icbank

喜欢我们的内容就点“在看”分享给(gěi)小伙伴哦

未经允许不得转载：天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修将英伟达拉下马，芯片公司出招