阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
【TechWeb】9月20日消息,在2024云(yún)栖大会上,极客(kè)公园创始人、总裁 张鹏对话阶跃星辰创始人、首席(xí)执行官姜大昕,月之暗面(miàn)Kimi创始人 杨植(zhí)麟,清华大学人工智能研究院副院长、生数科技首席科 学(xué)家朱军,三人对(duì)AGI发展现状 和未来展望进行了激烈讨论和前瞻展望。
2024年,AI 发(fā)展变慢 了吗?过去18个月,AGI的发展是加速还是减速?如何评价OpenAI 最(zuì)新发布的 O1 模型?强化学习将改变什么?大模(mó)型(xíng)时代的创业新范式是(shì)什么?
姜大昕表示AI 技术发展加速, AI 发展正在经(jīng)历关键的技术范式迭(dié)代: OpenAI 的大模型(xíng) o1 探索出(chū)了通过强化学习让 AI 具备人类慢思考(可(kě)主(zhǔ)动反思、纠错(cuò)的复杂思考)能(néng)力的方式(shì),接下来提升强化学习模型的泛化能力和加速推进多(duō)模态理解生(shēng)成一体化是 AI 技术进一(yī)步突破的关键。阶(jiē)跃星辰积(jī)极探(tàn)索新的技术范式,已经在万亿参数模型上实现了强化学(xué)习训练的(de)方法论。同时,持续打磨更高性能的底层大模型,提升C端产品体验。据他透露,近期阶跃星辰自研的 Step-2 万(wàn)亿参数 MoE 语言大模型已接入智能助(zhù)手“跃问”,展现出更强大的指令跟随(suí)、创(chuàng)作和(hé)推理能力。
谈到AI产品 未来的可能形态,杨植麟(lín)表示,以(yǐ)后的AI可能要思考或者调用各种工具,它可能(néng)执行分钟级别、小时级别甚至天级(jí)别的任(rèn)务,所(suǒ)以产品形态上可能会(huì)更接(jiē)近一个人,它(tā)更接近“助理”的(de)概念,帮你(nǐ)完成(chéng)异步的任务。这里面的(de)产品形态设计可能也(yě)会(huì)发生很大的变化,想象空间(jiān)蛮大。
谈到未来18个可能发生的事情,朱(zhū)军 表示,预想未来18个月可(kě)能比较令(lìng)人兴奋(fèn)的一个进(jìn)展,我希望看到AGI的 L3已经基本上实现。至少在智能体,比如我(wǒ)们说(shuō)的(de)世界模型的创(chuàng)建生成、虚实融合,至少在(zài)一些特定场景(jǐng)下的(de)决策能力(lì)的巨大的提升。其实(shí)它会(huì)利用我们今天讲到的推理、感知等等。
以下为(wèi)对话实录摘录:
主持人:从ChatGPT的发展,引发了整个世界对(duì)于(yú)AGI这个事情(qíng)的理解,发展到现在也18个月了(le)。各位的感受(shòu)是怎么样的,过去18个月,AGI的发展是加速还是减速?
姜(jiāng)大昕(xīn):我觉得过去18个月速度还是在加速(sù)的,速度还是非常快的。因为当我们回顾过去18个月发生的大大小小的AI事件(jiàn)以后,可以从两(liǎng)个维度去看(kàn),一个是数量的角度(dù),一(yī)个是(shì)质量的角度。
从数量的角度来(lái)看,还是每个月都会有新的模型、新的产(chǎn)品(pǐn)、新的应用涌现 出来。比(bǐ)如单(dān)从模型(xíng)来看,OpenAI 2月份发了(le)一个sora,我记得当时还是过年的时候,把大家轰炸了一下。然(rán)后5月份出了一个GPT-4o,上周又出了o1。OpenAI的(de)老(lǎo)对手(shǒu)Anthropic它有Claude3到Claude3.5的系列(liè),再加上谷歌Gemini系列(liè)、Claude系列、LLaMA的系(xì)列,等等。
所以,回顾过去,我们的感觉还是GPT-4是一家独大,遥遥领(lǐng)先。到了今年就(jiù)变(biàn)成了 一个好像是群雄并起,你追我赶的局(jú)面,所以感觉各家(jiā)是在提速了。
从质(zhì)量的角度来(lái)看,我觉得有三件事情可能给我的印(yìn)象非常的(de)深刻(kè)。
第一件(jiàn)事(shì)情,GPT-4O的发布(bù)。因为(wèi)我看它,认为它是在多模融合这(zhè)样的一个领域上了一个新的台阶。在GPT4O之前,是有GPT4V,它是(shì)一个视觉的理解模型(xíng),有Dalle、Sora,这是视觉的生成模型。还有(yǒu)Whisper这是声音模型(xíng)。所以原本这些 孤立(lì)的模(mó)型到了4O这(zhè)里都融合在(zài)一起了。
那为(wèi)什(shén)么融合这件事情非常的(de)重要?是因为我们的物理世界(jiè)本身就是一(yī)个多模的世界,所以多(duō)模融合一定是有助于更好的去(qù)为我们的物理世界建模(mó),去模(mó)拟世界这样一件事情。
第二件事情,特斯拉发布的FSD V12。大(dà)家知道它(tā)是(shì)一个端到端的大模型,它把感知信号变(biàn)成一个控制(zhì)序列。智驾是一个非常有代(dài)表(biǎo)性的,它是一个从数字世界走向物理世界一个真实的(de)应用场景(jǐng)。所以,我觉得(dé)FSDV12它的成功,意义不仅在(zài)于智驾本身,这(zhè)套方法论可以认(rèn)为(wèi)是为将来的智能设备如何和大模型相结合,更好的(de)去探索物(wù)理世界指明了一个方(fāng)向。
第三件事情,上周的O1,我(wǒ)对它的(de)理解,它第一次证明了语言模型其(qí)实也可以有人脑的慢思考,就(jiù)是系统(tǒng)2的能力。而我们觉得(dé)系统2的能力它是归纳世界(jiè)所必备的一个前提(tí)条 件,是一个基础(chǔ)的能(néng)力。所(suǒ)以,我们(men)一直认为(wèi),AGI的演(yǎn)进路线可以分为模拟世界、探索(suǒ)世界、最(zuì)后归纳世界。而过去几个月的时间我们看到(dào)GPT4O、FSD V12和O1分别在(zài)这三个阶段(duàn)或者(zhě)这三(sān)个方向上都取得了非常大的突破,而且更重要 的是为(wèi)将来的发展也指明了一个方向。所以无论(lùn)是(shì)从数量(liàng)还是质量(liàng)上来说,都是可圈(quān)可(kě)点。
杨植麟:我觉得整体也是(shì)属于(yú)加速发展的(de)阶段,核心可以从两个维度来(lái)看(AI的发展),第一个维 度是纵向(xiàng)的(de)维度,也就是说你的(de)智商是一直在提(tí)升的,这个主要现在的反应方式还是你去看文(wén)本模型能做到(dào)多好。第二(èr)个(gè)是横向的发(fā)展(zhǎn)。除了文本模型之外,刚(gāng)才姜总提到的,也会有各(gè)种不同的模态,这(zhè)些模(mó)态会做一个(gè)横向的发展,更多的让你这个模型具(jù)备更多(duō)的技能,能够去完成更多的任务,然后(hòu)同时跟纵向的智商(shāng)的发展相结合。
在这两个维度(dù)上(shàng),我觉得都看到了(le)非(fēi)常大的进展(zhǎn),比如说在纵向的维(wéi)度上,其实智商是一(yī)直在提升的,比(bǐ)如说(shuō)我们(men)如果去看竞赛数学能力(lì),去年是完全不(bù)及格,到今年已经能做(zuò)到90多分,像代码基本上(shàng)也是一样,能够(gòu)击败很多专业的编程选手,包括因此也产生了很多新的应用机会,比如说像现在(zài)比较流行的类似curser这样的,通过自然(rán)语言直接去写代码的这(zhè)样(yàng)的软件(jiàn)也(yě)越来越普及,这是技术发展的结果。包括我们去看很多具体的技术指标,现在的语言模型能支(zhī)持的上下文(wén)的长度,我们如果去年这个时(shí)间点去看的话,大部分的模型都只能(néng)支持4K-8K的,但是从今天(tiān)去看你会发(fā)现(xiàn)4K-8K已经是非常低的数了,128K是一个标配(pèi),已经有很多可以支(zhī)持1M甚至10M的长文本的长度 。所以,它(tā)这个其(qí)实也是(shì)后面你的智商不断提(tí)升的(de)一个很重(zhòng)要(yào)的基础。
包括(kuò)最近的很多进(jìn)展,它不光只是说Scaling,Scaling还是会持续。而(ér)且很多进展也来自于你(nǐ)的(de)后训练算法的优化(huà),来自于你数据的优化,这些优化(huà)它(tā)的周期是会更短的。所(suǒ)以,这个周 期更短导致你整体AI发(fā)展节奏也会进一步加快,包括我们(men)最近在数学上看到的很多进展,其实也是得益于这些技术(shù)的发展。
横向上当然也产生(shēng)了很多新的突(tū)破,当然Sora可能是影响力最大的,在这里面完成了这个视频生成(chéng)。包括最近有特别多新 的产品和技术出 来,现在你已经(jīng)可以通过一个(gè)论文直接(jiē)生成(chéng)基本上你看不出来是真是(shì)假的双人的对话。类似这(zhè)样的不同模态 之间的转化、交互和生成,其实会变的越来越成熟。所以,我 觉得(dé)整体是在(zài)加速的过程中(zhōng)。
朱军:AGI这里面大家(jiā)最(zuì)关注(zhù)的还是大模(mó)型,刚才(cái)两位(wèi)也讲了去年(nián)包括今年大模(mó)型(xíng)也发生了很多重要的变(biàn)化。整个的进展我是非常同意刚(gāng)才讲到的,在加(jiā)快。
另外,我想补充一点,大家在解新的问题,这个速度也在加(jiā)快了,我们说它的Leaning corve在变的更(gèng)陡。原(yuán)来如果(guǒ)你看语言模型(xíng),可(kě)能从2018年最早去做(zuò)的,到去年以(yǐ)及到今(jīn)年,大家走了五六年的路。但其(qí)实从去年开(kāi)始,上半年大家还是关注语言模型(xíng),下半(bàn)年在(zài)讨论多模态,从多模(mó)态理解再到多模态生成。我们(men)再回过(guò)头看的话(huà),比如说图像或(huò)者视频,其实视频最明显,从今年的(de)2月份,当时很多人被震(zhèn)惊到了,因为它很多没(méi)有公开,就说怎(zěn)么去突破(pò)?有很多的讨论。但事(shì)实(shí)上我们现在看到这(zhè)个行(xíng)业里面,大概(gài)用了半年的(de)时间,已经做(zuò)到了可以去用,而且达到(dào)了一个很好的(de)一些效果,在时空(kōng)一致(zhì)性 上。所以大概走了半年的路。
所以这里面加速的一个最核心的原因,现在大家对这种路线的认知(zhī)和准备上,达到了比较好的程度。当然我们还有物理的条件,比如说(shuō)像云(yún)的设施,计(jì)算(suàn)的资源的准备上,不像ChatGPT当时(shí)出来的时候,大家当时更多的是一种不知所(suǒ)措(cuò),我(wǒ)觉得很多人(rén)可能没准备好(hǎo)去接受这(zhè)个,所(suǒ)以中间去(qù)花了很长时间去学习、去掌握这个。当我们掌握(wò)了(le)之后再发现这个进展的话,再去做新的问题,其实它的速度(dù)是越来越快的。
当然,这个可能(néng)不同的能力它(tā)再辐(fú)射到实际(jì)的用户的角度来说,有一些快慢之分,当然(rán)也分行业。这个可(kě)能在广泛的角度来说,大家 可能没感知到。但是从技术来说,其实这个进展我感觉是曲线越来越(yuè)陡,而且可能对后边(biān)我们要(yào)预测未来的(de)话,包括向更高阶的AGI发展(zhǎn),我是比较乐观的,可能会看(kàn)到比之前更快的速度去实现(xiàn)了。
主持人:最近OpenAI刚刚出的O1的新的模型,也是在专(zhuān)业人群里形成了非常(cháng)多的(de)影响,现在还在很丰富的讨论。怎么评价O1进展的(de)意义(yì)?
姜大昕:确实我看到一些非共识,有些人觉得意义(yì)很大,有(yǒu)些(xiē)人觉得也不过如此。我觉得大家如果去试用O1的(de)话,可能第一印象是它的推理能力确实非常惊艳(yàn),我们自己试了很多Query,觉得推理能力确实上了一个很大的台阶。
然后我们去思考它背后的(de)意(yì)义究竟是什么,我能想到的有两点:1.它第(dì)一次证(zhèng)明了Large language model,就 是语言模型,它(tā)可以有人脑的慢思考(kǎo)的能力(lì)。它和以前GPT的范式,或者GPT的训练,它叫,Predict next Token,它只要这(zhè)样训练了,就注定了它只有system 1的能(néng)力。而O1是用了一个(gè)强化学习的训练(liàn)框架,所以带来了系统2的能力。
系统1的体现,它是(shì)一个 直线性思维(wéi),虽然我(wǒ)们(men)看到GPT4有时候可以(yǐ)把一个复杂的(de)问题拆解成很多步(bù),然(rán)后分(fēn)步去解决,但它还是直线(xiàn)性的。系统1和系统(tǒng)2最大的区别在于,系统2能够去探索不同的路径,它(tā)能够自我去反思、自我去纠(jiū)错,然后不断(duàn)的试错,直到找到一个正确的途径,这是(shì)系统2的(de)特点(diǎn)。这次O1,它是把以前的模仿学习和强化学(xué)习结合起来(lái)了,使得(dé)一个模型同时有了人脑系(xì)统1和系统2的能力。所以我觉(jué)得从这(zhè)个角度来看,它的意义是非(fēi)常大的。
第二,它带来了一个Scaling Law的新方向,我理解O1试(shì)图回答的一个问题,就是(shì)说RL(强 化学习)究竟怎么去泛化(huà)。因为强化学习(xí)它不是第(dì)一个,DeepMind一直走的是强化学习的路(lù)线,从AlphaGo到AlphaFold到AlphaGeometry,其实它在(zài)强化学习上是非常厉害的。但以前强化学习的场景都是会为特定场景去设计(jì),AlphaGo只(zhǐ)能下围棋,AlphaFold只能去预测(cè)蛋白质的(de)结构。所以这次O1的出现,它是在RL强化学习(xí)通用 性和泛化性上了一个大的台阶(jiē),而且它scale到了一个很(hěn)大的规模,所以我把(bǎ)它(tā)看成scaling带来新的技术范(fàn)式,我们不妨称之为(wèi)RL Scaling。而且 我们看到有意思的一点,O1并没(méi)有到很成熟的阶段,它(tā)还是一个开(kāi)端,但是这个恰恰让人觉得非常的兴奋(fèn),这(zhè)就等于OpenAI跟(gēn)我们说,我找到了一条上限很高的(de)道(dào)路,而且你(nǐ)仔细(xì)去思考它背后的方法,你会相信这(zhè)条路实际上是能走(zǒu)得下去。所以O1从能力上来(lái)讲,我觉得它展示了Language model可以有系统(tǒng)2的能力,从技术上(shàng)来说它带来(lái)新的scaling范式,所以它的意义还是非常大(dà)的(de)。
朱军:我的看法,它是代表(biǎo)着一个显著的质(zhì)变。我们也对(duì)AGI大概(gài)做(zuò)了一些分级,学术(shù)界,包括产业界大家有L1-L5的分级。其实L1的话(huà)相(xiāng)当于(yú)聊天机器人,就是像(xiàng)ChatGPT等,之前大家做了很多(duō)对话的。L2叫(jiào)推理(lǐ)者,实际上可以做(zuò)复杂问题深度思考的推理。L3叫(jiào)智能(néng)体,回应吴总(zǒng)讲的“数字世界”走向“物理世界”,我要去改变的(de),我要去交互的。L4是创新(xīn)者,它要去发现、创(chuàng)造一些新的(de)东西,或者发现一些新的(de)知识(shí)。L5是组织者,它(tā)可以去协同,或(huò)者(zhě)某种组织方式更高效来运转,这是大家对于AGI L1-L5的分级,当然每一级也有narrow和general的区分 ,在某些Task上展示出来。比如O1在L2的narrow场景下,在一些特定任务下(xià)已经实现了人类达(dá)到很(hěn)高阶的智能水平。我觉得从分级角度来看,它确实代表着(zhe)整个行业巨大(dà)的进(jìn)步。
刚才技术(shù)上姜总也讲了,它将过去强(qiáng)化学习或者其他一些技术,其实在研究里已经做了很多东西,但(dàn)实际上它在大(dà)规模基座模 型上能够做出来的(de)效(xiào)果,这还是从工程上,或者从实现上来(lái)说对行业(yè)很大的触动。当然它也会错发或者激发出来很(hěn)多未来的 探索,或者(zhě)实际的研发,可能(néng)会走向从narrow到general的(de)跃迁。刚才讲到速度,我相信(xìn)它(tā)会很快,因为大家已经有 很多准备了(le),我也期待这个领域里更多将L2做得更好,甚至更高阶的能实现(xiàn)。
杨植麟:我觉得它(tā)的意义 确实(shí)是很大,主要(yào)意(yì)义(yì)在于它提升了AI的阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”(de)上限。AI的上限是(shì)说,你现在去提升5%、10%的(de)生产力,还是说10倍的GDP,我觉得这里最重要的问题就是(shì)你能不能(néng)通过强化学(xué)习(xí)进(jìn)一步scaling,这是完全提升了(le)AI上限的东西。我(wǒ)们如果看AI历史上(shàng)七八十年的发展(zhǎn),唯一有效的就是scaling,唯(wéi)一有效的就是加更多(duō)的算力。但在(zài)O1提出之(zhī)前,可能也有很多(duō)人在研究强化学习,但都没有一个非常确切的答案,强化学习如(rú)果和大语(yǔ)言模型,或者(zhě)和(hé)training processin这些(xiē)东西整(zhěng)合在一起,它能否持续提升。比如GPT4这(zhè)一代模型的提升,更多 是确定性的提升,我在一样(yàng)范式(shì)下把规(guī)模变得更大(dà),它肯定是确(què)定性的提(tí)升。但是我觉得O1的(de)提升(shēng)并不是一个完全确定(dìng)性的,这样的提升。
所 以在之前大家可能会担心现在互联网上大部分优质数据都已经被(bèi)使用完了(le),然后你可能继续使用这个数据也没有(yǒu)更多数据可以挖掘,所以你原来的范式可能会遇到问题。但AI有效了,你又(yòu)需要进一步scaling,那你这个scaling从哪里来,我觉得很大程度上解决了这(zhè)个问(wèn)题,或者说至少证明了它初步可行(xíng)。初步可行的(de)情(qíng)况下(xià),可能我们会有越来越多(duō)人投入去做这(zhè)个事(shì)情,最终你(nǐ)要做到10倍GDP的最终效果,它完全有可能,我觉(jué)得是一个很重要的(de)开端。
我觉得对很多产业格局上,或者对(duì)于创业公司新机会来说也会发生一些变化。比如我觉得这里很关键(jiàn)的一个点(diǎn),你的训练和推理算力占比是会(huì)发生(shēng)很大的变化,这个变化我不(bù)是说训练(liàn)的算(suàn)力会下降,训练的算力还会(huì)持续提升。与(yǔ)此(cǐ)同时,推理的算力提升会更快,那这个比例的变化本质上会产生很多新的机会,可能(néng)这里很多新的创业公司的机会。一方面,如果你达到一(yī)定的(de)算力门槛,它可以在这里做(zuò)很多算(suàn)法的基础创新,那你可以在基础的模型上甚至取得突破,所以我觉得这个很重要。
对于算力相对小一点的公司,它也可以(yǐ)通过后训练的(de)方式,在一(yī)些领(lǐng)域上做到一些效果,这里也会产生更多(duō)的产(chǎn)品和(hé)技术(shù)机会,所以我觉得整体也是(shì)打开了创(chuàng)业相关的想象空(kōng)间。
主持(chí)人:这一波AI新的(de)变化(huà),接下来会(huì)对AI相(xiāng)关的(de)产品带来什么样的连锁反应,这 个变 化(huà)如何发生(shēng)?
杨植麟:这是很好的问题,我们现在还是处于产业发展的早期。产业(yè)发展的(de)早期有一个特点,还(hái)是技术驱动产品会更多,所(suǒ)以(yǐ)很多时候(hòu)你的(de)产品会去看当前(qián)的(de)技术是(shì)怎么(me)发展,然后把它最大化的价值提取出来,所以这个问(wèn)题首先非常(cháng)好,可能我们根据 这个新的技术(shù)进展,再返过来推一下现在产(chǎn)品应该做(zuò)什(shén)么变(biàn)化。
现在的技术(shù)发展(zhǎn)有(yǒu)几(jǐ)个(gè)点:
一个,我觉得这里(lǐ)面(miàn)会有很(hěn)多探索新的PMF(product market fit)的机(jī)会。我觉得PMF指(zhǐ)的是两个东西的平衡:一方(fāng)面是由于你需要(yào)做这种系统2的 思考 ,导(dǎo)致你(nǐ)的延时增加。对用(yòng)户来说,延(yán)时增加是一个负向的体验,因为所有(yǒu)用户都希(xī)望我(wǒ)尽(jǐn)快能拿到结果(guǒ);第二个点,它确实能(néng)提供(gōng)更(gèng)好的输出,能(néng)拿到更好的结果,甚至能完(wán)成一些跟(gēn)更复杂的任务。等(děng)于说新的PMF产生的过程或者探索的过程(chéng),其实是要在(zài)在延时增(zēng)长的用户体验下降和最后结果产生质量更高的用户价值的上升之间 找到一(yī)个平衡点。所以你要(yào)让这个增量的价值是大于体验的损失,我觉得这个很重要。所以(yǐ)在这里面更高价值的场景,特别是生产力的场景(jǐng),我(wǒ)觉得会率先有一些东西出来。因为如果你是一个娱乐场景,大概率你可(kě)能很难(nán)忍受(shòu)这种延时上的增加。所(suǒ)以(yǐ),我觉得这是比较重要的一(yī)点
产品(pǐn)形态上,我觉得也会发生一些变(biàn)化。因为你(nǐ)引入这种思考的范式,所(suǒ)以现(xiàn)在(zài)同步及(jí)时 的类似聊天的产品形态一定会发阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”生变化。因为以后(hòu)的AI,可能它(tā)不光是现在思考个20秒、40秒,它已经可能要(yào)思考或者调用各种工具,它可能执行分钟级(jí)别(bié)、小时级别甚至(zhì)天级(jí)别的(de)任务,所以你(nǐ)的产品形态上可(kě)能会(huì)更接近一个人,它更接近“助理”的概念,帮你完成异(yì)步的任务(wù)。这里面的产品形态设(shè)计,我觉得可(kě)能也会发生很大的变化。所(suǒ)以(yǐ)这里面,我觉得新的想象空间蛮大的。
朱军:我觉得大模(mó)型或者大规模预训练的技(jì)术(shù)代表着整个范式的变 化,前面也聊到很多,不光是语言,到多模态,到(dào)具身(shēn)、空间智能,中间还是想我(wǒ)怎么去(qù)让智能体能够有交互,能够在这个过(guò)程中来学习。从智能的角度来看,包括从AGI发展上,它是一个必然,因为决(jué)策(cè)、交互实际上是我们说的智能里面非常核(hé)心的能力的体(tǐ)现。我(wǒ)们(men)每时(shí)每刻其实都在做决策,我(wǒ)们(men)面对的是一个未知的开放环境,所以(yǐ)对于智能来说,它的发展路(lù)径上,在整个规划里面(miàn)大家也是朝着这(zhè)个(gè)方向走。
现在所(suǒ)有这些进(jìn)展,包括刚刚讨论很多的O1,包括做视频生成,或者3D,这些东西大家最后要指向的有两个方向:
一个是给消费者看到(dào)的(de)这些数字内容(róng),就是说(shuō)看上去很好看、很自(zì)然,能够讲(jiǎng)故(gù)事,能(néng)够让大家参与讲故事、能够交互。这肯(kěn)定是一个(gè)很重(zhòng)要的方向(xiàng),在数字内容(róng)上。
另外一个方(fāng)向,指向实体、指向物理世界。
现(xiàn)在(zài)可能最好的一个结合点(diǎn)就是和机器人来结(jié)合在一起(qǐ)。其实现在已经有好多例(lì)子在展示出来,我们也看到很好的一些进展,比如用了预(yù)训练的范式,如何让机(jī)器人的能力具有通用性;比如我(wǒ)们自己实验室做(zuò)多(duō)的例子,像四足机器人,过去大家在(zài)不同场地上,你要(yào)让(ràng)它(tā)跑起(qǐ)来都需要用很多的人工调参。但现在你在(zài)一(yī)个仿真(zhēn)环境里面,或(huò)者用一些(xiē)AI的方式来生成一些合成数据,让它在里面大规模地训练,训练(liàn)出来的策略可以灌到机器人上,它相当于换了一副大(dà)脑,可以让它的四肢更好地协同(tóng)起来,同样一套策略可 以做(zuò)各(gè)种(zhǒng)场地的适(shì)应。其实这还是一个初步的例(lì)子,现在大家也在关(guān)注更复杂的控制决策,就像空间(jiān)智能、具(jù)身智能。
就像刚才讲到智能体是AGI的L3,所以现在用到(dào)L1、L2的进展(zhǎn)之后,后面肯(kěn)定会提升到 L3,让机 器人更好地做它的推理规划,然后 更好更高效地和环(huán)境做交(jiāo)互,更好地完(wán)成我们(men)的复杂任务。因为现在很多时候任务相对来说分散(sàn),给它定义成一个简化的。未来,我们很快可以看到它可以接受复杂的指令、完成复杂的任务 ,通(tōng)过它内嵌的思维链或者过(guò)程的学习(xí)方式(shì),能够(gòu)完成复杂任务。所(suǒ)以到那个时候,智能(néng)的能(néng)力又(yòu)有一个很巨大的提升。
主持人(rén):虽然(rán)意料未来都很(hěn)难,至少(shǎo)心里会(huì)有一个(gè)期待(dài),比(bǐ)如在下一(yī)个18个月里,我们 希望看到什(shén)么样的进展,在AGI的领域里?
朱军:因为(wèi)现在(zài)整个是一个(gè)加速,其实很多(duō)时候我们预测通(tōng)常会过于保守。如果回到你的问题,我预想(xiǎng)未(wèi)来18个月可能比较令人兴奋的一个进展,我希望看(kàn)到(dào)AGI的L3已经基本上实现。至少(shǎo)在智能体,比(bǐ)如我们说的世界模型(xíng)的创建生 成、虚实融合,至少(shǎo)在一些特(tè)定场景(jǐng)下的(de)决策能(néng)力的巨(jù)大的提(tí)升。其实它会利用我们今天讲到的推理、感知等(děng)等。
因为我前一段时间领了(le)一个任务,就是对L4做专门的分析,就是到底我们缺(quē)什(shén)么?做了L4的。其实最后调研或者是分析下来,你会发现(xiàn)如果我们要做科学发(fā)现或者做创新,它(tā)需(xū)要(yào)的那(nà)些能力,可(kě)能目前是(shì)散落在各个角落(luò)里面,当(dāng)然现在可能还缺一(yī)个系(xì)统怎么把这些东(dōng)西集成在(zài)一起,给它(tā)做work。所以我觉得如果更激进一点,我甚至(zhì)觉得(dé)未(wèi)来18个月可能(néng)在L4上也会有显著的进展。当然这里面(miàn)我(wǒ)讲的是严肃的科学发现(xiàn),其实L4还有一些创(chuàng)意的表达上,目前我们在某种意义上已经达到了,比如(rú)说艺术创造、图生视频,一定程度上它已经(jīng)帮大家放(fàng)大(dà)你的想象,或者让你(nǐ)的(de)想象可以具象化。所以,我对整个于是还(hái)是(shì)比较乐观(guān)的,我觉得至少L3或(huò)者未来L4有一些(xiē)苗子了。
到(dào)今年年底,希望将我们本来做的(de)视频模(mó)型(xíng)能够以更加高效、更可控的方式提(tí)供给(gěi)大家。
我解释一(yī)下高效(xiào)和可控。可控,比如你(nǐ)想表达一个故事(shì),不(bù)是简单地将一段话或者一个(gè)图片给它动起来,我们(men)是希望你可(kě)以(yǐ)连续地讲,而且它(tā)不(bù)光(guāng)是人的一致(zhì)性,还(hái)包括物体等各种主题的一致性,还包括交互性;高效,它一方面解决对算力成本的考量,因为你如果想要(yào)服务很多人,让(ràng)大家用(yòng)的话,首先你成(chéng)本要降下(xià)来,不然这个本身就是烧钱,一直(zhí)赔钱。另外(wài)一个(gè)更重要的,还是从体验上。就使用者来说,因为他想表达自己的创意,他(tā)可能需要多次和系统来交互,一方面是验(yàn)证,另外一方面是启发,所以 这个过程也需要(yào)你的模型系统能够比较高(gāo)效(xiào),比(bǐ)如说终极目标(biāo)达到实时,能够让(ràng)大(dà)家快速尝试。等到这个阶段,我相信大家的用户体验,包括用户量都会有一个巨大的提升,这是我们今年想重点突破的。当然(rán)长远的话,可能明年18个月会走向实体的虚实融合的场景了。
杨植鳞:我(wǒ)觉(jué)得接下来最重(zhòng)要的,可能(néng)是(shì)开放性的强化学习,比如说你在产品上跟用户交(jiāo)互,在一个真实的环境里面完成任务,然后自己去进化。当然,我觉得O1一定程(chéng)度上说明这个方向有比之前更(gèng)强的确定(dìng)性,我觉得这个会是一个重(zhòng)要的里程碑,也是AGI路(lù)上(shàng)现在仅甚唯一的一个(gè)重(zhòng)要问题了。所以,我(wǒ)觉得这个会很关(guān)键。
张(zhāng)鹏:对,18个月已经是很长了,如果看看看过去18个月走(zǒu)的路(lù)。你未来3个月,有什么可以透露的吗?
杨植鳞:我们还是希望能够在(zài)产品和技术上持续地(dì)创新,至(zhì)少可能在一(yī)两个重要领(lǐng)域能够做到世界最好,但是有新的进展会(huì)尽快跟大家(jiā)分享。
姜大昕:第一,我也很期待(dài)强化学 习(xí)能(néng)够(gòu)进一步泛化。另(lìng)外一个方(fāng)向其实我也很期待,应该说期待了很久就是在视觉领域的理解和生成一(yī)体化的事情。因为在文字领域,GPT已(yǐ)经做到了理解生成一体化,但遗憾(hàn)的是在视觉领域,这个问题当然不是遗憾,它非常难。所以在目前(qián)为止(zhǐ),我们看到的视觉的理解和生成,这两个模型是分开的。即使像刚才说的多模融合,如果大家仔细看GPT4,它其他模态(tài)都解决了(le),它唯(wéi)独(dú)不能(néng)生成(chéng)视频,所以这是(shì)一个悬而未(wèi)决的事情。
它为(wèi)什么很重要呢?如果我们解决了(le)视频理解生成一体化,我们(men)就可以彻(chè)底建立一(yī)个多模的世界模型,有一个多模的世界模型以(yǐ)后,可以帮(bāng)助我们真(zhēn)正产生非(fēi)常长的视频,也就是说解决Sora(音译(yì))目前的技术缺陷。还有一个,它可以和(hé)具身智能相结合,它可以作为机器(qì)人的大脑 去帮助智能体(tǐ)更好地探(tàn)索物(wù)理世界,所以我也是非(fēi)常期待的。
张鹏:你未(wèi)来年底之前,有(yǒu)什么我们值得期待的你的进展?
姜大昕:我也是(shì)期待一方面模(mó)型和技术的(de)进步,另外一方面(miàn)产品能带给用户更多更好的(de)体验,其实阶跃有(yǒu)一款产品叫“跃问”,在上面,用户可(kě)以体验我们最(zuì)新的(de)万亿参数的模型,它不光是理科很强,而且(qiě)它的文学(xué)创作能力也很强,经常给大家(jiā)带(dài)来一些(xiē)惊喜。同时,跃问上还有一(yī)个新的功能(néng)叫“拍(pāi)照问”,我们看到用户经常拍张照片去问(wèn)食物的卡路里,去问宠物的心情(qíng),问一(yī)个(gè)文物的前世今(jīn)生,包括(kuò)Mata眼镜的发布,还有Apple Intelligence,它今年都突(tū)出了视觉交互的功能。所以(yǐ)我们(men)在跃问上也有体现,而且我们(men)会努力一步(bù)步把这个功能做得(dé)越(yuè)来越好。
未经允许不得转载:天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修 阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了