大模型,何时迎来大转折?
“真正的(de)变革是,什么时间点有一个模型可以把错误率(lǜ)降低到个位数。”
在经历了上半年(nián)密集的技术和产品发布后,下半年的AI圈显得有些(xiē)平静(jìng),不再(zài)有如(rú)Sora这样引发轰动的产品,在GPT-4o之后,行业引领者OpenAI也迟迟没有大动(dòng)作。不少行业人士(shì)认为,技术的迭代放缓了。
在亚布力企(qǐ)业家夏(xià)季年会上,猎豹移动董事长傅盛提出一个观点(diǎn),AI浪(làng)潮(cháo)已出现泡沫迹象,从大模型出现(xiàn)在大(dà)众视野以来,已过去近(jìn)一年的时间,但最顶级大模(mó)型的模型没有明显提升。“客观(guān)来说,谁家大模(mó)型有什么(me)优(yōu)势(shì),基(jī)本尚属‘一家之言’,用户用起来没有感觉到太大差别。”他认为,当前大模型同质化严重。
在与MiniMax创始人闫俊杰的交流中,关(guān)于瓶颈(jǐng)与(yǔ)转折点他提到,现在所有(yǒu)模型错误率都是20%的(de)量级,“真正的变革(gé)是 ,什么时间点有一(yī)个模型可以把错误率降低到个位数,这会是一个非(fēi)常本质的变化。”未来大模型能否成功(gōng),傅盛也认为,大模型的天花板能否再上一个台阶很重要。
“至(zhì)暗时刻觉得技术很(hěn)重要”
这(zhè)一轮的生成式AI是一场掀起巨大(dà)浪潮的(de)社会生产力革命,傅盛认为,这(zhè)波浪潮今天已经呈现出(chū)明显的泡沫迹象。
何为“泡沫”,傅盛(shèng)认为,一方面是模型能力没有明显提升。“在一个以科技为核心(xīn)的 技术浪潮(cháo)中,这是不太正常的。”每次 写不同的东西,傅盛都(dōu)会用好(hǎo)几个大模型互(hù)相比(bǐ)较,“有时候这个大模型更好用,有时那个更好用,当前大模型的同质化很严(yán)重。”
其次,说了这(zhè)么久人工智能(néng),“但真正的Killer APP(杀手级应用)并(bìng)没有出现,不仅在C端没有出现,B端也未能出现。很多行业大(dà)模(mó)型(xíng)都说自己有不少应用,但真正提效(xiào)的并不多。”傅(fù)盛说,想要将大(dà)模型真正变(biàn)成一个明显能提(tí)效的(de)应用(yòng),还很有难度。
泼了盆冷水的同时,傅盛补充表示,泡沫不见得会使大(dà)模型发展(zhǎn)崩塌,因为有点泡沫很正常,互(hù)联(lián)网早(zǎo)期也曾出现泡沫。
在今年6月演讲时,金沙江创投主管合伙人朱啸(xiào)虎曾谈及GPT-5一(yī)直“跳(tiào)票”时表示,“硅谷(gǔ)也(yě)高度怀疑GPT-5还有没有,即使出来在核心推理能力上还有没有显著的提高,这(zhè)是很(hěn)不确定的东西,今年年底是一个验金石。”他判断,大模型演(yǎn)化速度有放缓趋势,而迭代曲线放缓以后(hòu),应用层的机(jī)会就会更多。
不(bù)过,在波形智能创始人姜昱辰看来,大模型技术迭代其实(shí)并(bìng)没有放缓(huǎn),而是保持着2018年(nián)以来的增速,那一年基(jī)于Transformer架(jià)构的大规模语(yǔ)言模型预训练(liàn)开始流行。从博士的自然语(yǔ)言处理研究到大模型创业(yè),姜昱辰更早开始经历这轮 大模型(xíng)技术演(yǎn)化的进程(chéng)。
“大家之所以有这样的感觉(技术迭代放缓)是因为大众是在2022年底、2023年初第一次看到这个技术,做了很多短时间的learning和追赶,追赶当然比较快。”姜(jiāng)昱辰对第一财经表示,把OpenAI做出(chū)来的(de)技术学一遍,不叫“技术迭代”。
虽然行(xíng)业(yè)此前有一(yī)句(jù)“没有应用的大模型一文不值”广为传播,但在很多(duō)从业者看来,大模型的技术同样重要,因为更好的(de)应用一定建立在更好的技术之上,技术和应用是一个相互转化的串联(lián)关系。
在MiniMax刚刚过去的伙(huǒ)伴日活动上(shàng),闫俊杰在讨论中(zhōng)提到,“至暗时刻会(huì)觉得技术很重要。”
很多时候做技术时,并(bìng)没有真正意识到技(jì)术为什么重要。闫俊杰举(jǔ)例表示,用户感受到的东(dōng)西可能来自于一些产(chǎn)品细(xì)节,或者一(yī)些品牌,技术本身是好多个环节在一起,尤(yóu)其在繁荣时期(qī),可能(néng)分不(bù)清什么是(shì)主,什么是(shì)次,“当在某些时间点遇到(dào)瓶颈的时候,抛开所有的表象东西,会(huì)意识到技术(shù)才是最(zuì)终提升的来源。”
“技术做不好的时候,发现所有东西都是问题,当(dāng)技术做好了,似乎(hū)所有问题都被(bèi)掩(yǎn)盖了,”闫俊(jùn)杰表示,技术是一家科技(jì)公(gōng)司(sī)最核心的要素这(zhè)件 事,尽管已深(shēn)刻意识到,偶尔(ěr)还是(shì)在继续犯错误,“这个是我在(zài)多次至暗时刻里最有共性的一件(jiàn)事。”
做技术也是一件非常奢侈的事,“如(rú)果看一(yī)眼(yǎn)我们每个月的账单还是(shì)会非常心(xīn)疼的(de)。”在采(cǎi)访(fǎng)中,说到这(zhè)话时,闫俊杰几次(cì)看向了MiniMax技术总(zǒng)监韩(hán)景涛,也就是“账单的制造者”。
因为做技术可(kě)能会失败(bài),研发投入很大,闫俊杰此前很多时候会想(xiǎng)要不(bù)要(yào)走点捷径,但实践经验会证明(míng),走捷(jié)径就会被“打(dǎ)脸”,“这(zhè)个事(shì)在我这发生可能超过十次了。”
“一个东西(xī)要实验(yàn)三次才能成功,第三次实验(yàn)成功的(de)时候,会想前面两次是不 是可(kě)以不用做,就像吃包子吃(chī)三个会吃饱,就会想是不是前两个不用吃(chī)是一样的。”闫俊杰表示,这是做技术时一个比较容(róng)易(yì)犯的错误。
在各种关于(yú)模型技(jì)术细节的排(pái)行(xíng)榜上,或许GPT-4o的跑分不常(cháng)出现在(zài)第一,甚至会在中间,但在MiniMax基于 真实客户的测试(shì)集中(zhōng),OpenAI的GPT-4o是遥遥领先(xiān)的。
在大(dà)模型时代,如何(hé)判断技术(shù)的好坏,大众很迷惑,企业同样觉得很难,但(dàn)这个点很重要,因为(wèi)技术(shù)的评价标准会决定模型的(de)迭代方向,如果指标本身不 对迭代方向可能就(jiù)错了。
闫俊杰提到,MiniMax目前的一(yī)个办法是,基于(yú)MiniMax开发平台的3万(wàn)多个开发(fā)者和付费客户,在他(tā)们的场景上构建一个真(zhēn)实使用的测试集,有些客户对他们的场景非(fēi)常看重,要求保证产品的效果,基于 这些客户(hù)真实使用的评测 是较 为客观的。
“这个测试集上所有(yǒu)国产化模型相比(bǐ)GPT-4o都相(xiāng)差较多,其他排行榜基本上GPT-4o都要排到中间(jiān)去了,但是在我们的排(pái)行榜上确实GPT-4o排在最(zuì)靠前。”闫(yán)俊(jùn)杰提到,国内所有模型 都与GPT-4o有本质的(de)差距,且(qiě)越难的问题 差距越(yuè)大。按照这个(gè)评估方式,国(guó)产模型的提升空间(jiān)还很大。
大模型,何时迎来大转折?>静待下一转折点
大模型的下(xià)一(yī)个转折点(diǎn)在(zài)哪里(lǐ)?众多创业者有不同的答(dá)案(àn),有人认(rèn)为是错误率的降低,有人觉得是个性化的模型,有(yǒu)人认为关键在于(yú)小算力训练出大模型,背后或许意味着架构的改进。
朱啸虎曾(céng)提到,今(jīn)年的(de)大模型本身还是有很多错误,且出(chū)来(lái)的结果不可控,今天落地最困(kùn)难的是(shì),场(chǎng)景下怎么解(jiě)决错误问题、可控问题。
现在所有的模型错误(wù)率都在20%左右,即两位数的 错误(wù)率,有时惊艳,有时不靠谱,闫俊杰认(rèn)为,这也是制 约模型(xíng)处理复杂任务的(de)原因,“真正的变革是,什么时间点有一个(gè)模型可以将错误率降(jiàng)低(dī)到 个位数(shù)。”这是能增加(jiā)用户使用 深 度的核(hé)心手段。
复杂(zá)任务往往(wǎng)需要多个步骤“相乘”,较高的错(cuò)误率导(dǎo)致失(shī)败率 的指数增加。闫俊杰表示,即便是GPT-4这样的模型(xíng)也无法支持非常灵(líng)活的(de)Agent(智能体),这并(bìng)不是因为(wèi)Agent框架写得不够(gòu)好,产品做(zuò)得不好,最根本的原因(yīn)是(shì)模(mó)型本身不够好。
但现(xiàn)在(zài)可以看到的是,每家公司有了算力,无论是(shì)OpenAI、谷歌还是(shì)Meta,都在加码算力。Meta CEO扎克伯格曾在社交媒体上表(biǎo)示(shì),要 建立一(yī)个大(dà)规模(mó)的计算基础设施,到2024年(nián)底,这一设施将包括35万张英伟(wěi)达H100显卡,业界预估这或许将耗费近百亿美元。
算法也在进步,OpenAI在2023年只能做出(chū)来GPT-4,但2024年能做GPT-4o,虽然性能(néng)差不多,速度快(kuài)了(le)近(jìn)10倍。
“计算量多了(le)不(bù)止10倍,算法也快了10倍时(shí),没有道理(lǐ)说训练(liàn)不出(chū)来一个更好的模型。”闫俊杰提到(dào),“如果Scaling law(尺度定律)是对的,未来这个模型一定会出现,标志就是个位数的错误率。”
在傅盛看来,降低错(cuò)误率同样重要。“今天的大模型有20%-30%的知识幻觉,而且‘它不知道自己(jǐ)不知道’,这是在企业应用上非常重要(yào)的一大卡点。”想要真正落地(dì)一个应用 ,得用大量工程化的手段去解决以前通用人工智能认为它能干的活,这中间是有差距的。
问及大(dà)模型技术的下一个转折点,姜昱辰给(gěi)了(le)一(yī)个不一样的答(dá)案,她认为是(shì)“个性化”的(de)技术。
“ToB的创业者会觉得错误率降(jiàng)低(dī)很重要(yào),因为企业级、工业级场(chǎng)景中要的是极高准确率,而在消费场景中(zhōng),要的(de)是‘懂(dǒng)你’的个人(rén)助手。因此,对ToC创业者来说,个性化技术(shù)更(gèng)重要。”对于不同的答(dá)案,姜(jiāng)昱辰解释,ToB和ToC不同的场景(jǐng)下会有(yǒu)不同(tóng)的感知。
从难度上来说,大模型幻觉是概率模型固有的,不容易解 决(jué),但(dàn)个(gè)性化大模型确实是技术层面可行的。姜昱辰提到,波(bō)形智能目前在做的是这个方向,主要(yào)的难点是(shì)算法(fǎ),中间需要知道的是,这样的个(gè)性化生(shēng)成(chéng)式模型(xíng)需要什么用户(hù)信息,如何用于模型自进(jìn)化。
深思考创(chuàng)始人杨志明则(zé)认为,下一个转折点(diǎn)是,如何利用小(xiǎo)算力训练出大模(mó)型(xíng)、做好大模(mó)型的推理,在 这背(bèi)后,当(dāng)下主流(liú)的Transformer架构需要(yào)堆积算力,“性价比(bǐ)太低”。架构的改进或许是重要的方(fāng)向。
值得期待的是,近日(rì)有消息称,OpenAI将在今年秋天推(tuī)出代号为“草莓”(Strawberry)的新模(mó)型。作为核心技术(shù)突(tū)破,草(cǎo)莓(méi)可能集成在(zài)ChatGPT内,帮助解决当前(qián)AI聊天机器人(rén)难以完成的复杂任务,如数学和编程问(wèn)题。此外,草莓更会“思考”,在(zài)解(jiě)决强主观(guān)性问题(tí)上更擅长。
“草莓”是前菜,消息人(rén)士透大模型,何时迎来大转折?露,OpenAI正在开发(fā)下(xià)一代大型语言模型Orion(猎 户座),草莓将为其生成高质量 训练数据,以帮助(zhù)减少大模型幻觉问题。能(néng)否突破瓶颈,带领行业(yè)进入下一(yī)转折点,最大的可能性还在OpenAI。
责任编(biān)辑:刘万里 SF014
“真(zhēn)正的变革(gé)是,什么时间点有一个模型可以把错误率降低到个位数。”
在经历了上半(bàn)年密集的技术和产品发布后(hòu),下半(bàn)年的AI圈显得有些(xiē)平静,不再有如Sora这样 引发轰动的产品,在GPT-4o之后,行业引领者OpenAI也迟迟没有大动作。不(bù)少行业人士认(rèn)为,技术(shù)的迭代放缓(huǎn)了。
在(zài)亚布(bù)力企业家夏(xià)季(jì)年会上,猎豹移动董事长傅盛提出一个观点,AI浪(làng)潮已出现(xiàn)泡沫(mò)迹象,从大模型出现在大众视野以来,已(yǐ)过去近一年的(de)时间(jiān),但最(zuì)顶级大模型的模型没(méi)有明显提升。“客观来说,谁家大模型有什么(me)优势,基本尚(shàng)属‘一(yī)家之言’,用(yòng)户用起来(lái)没有感觉(jué)到太大差别。”他(tā)认 为,当前大模型同质化严重。
在(zài)与MiniMax创(chuàng)始(shǐ)人(rén)闫(yán)俊杰的交(jiāo)流中(zhōng),关于瓶颈与转折点他(tā)提到,现在所有模型错误(wù)率都是20%的量级,“真正的变革是,什么时间点有一(yī)个模型可以把错误(wù)率降低到个位数,这会是一个(gè)非常本质(zhì)的变化。”未(wèi)来大(dà)模型(xíng)能(néng)否成(chéng)功,傅(fù)盛也认为,大模型的(de)天花板能否再(zài)上一个台(tái)阶(jiē)很重要。
“至暗时(shí)刻觉得技术很(hěn)重要(yào)”
这一轮的生成式AI是一场(chǎng)掀起巨大浪潮的社会生产力革命,傅盛认为,这波浪潮(cháo)今天已经呈现出明显的泡沫迹象。
何为(wèi)“泡沫”,傅(fù)盛认为,一方面是(shì)模型能力没有明显提升。“在一个以科技为核心的技术浪潮中,这是不太正常(cháng)的。”每次写不同的东(dōng)西,傅盛都会用好(hǎo)几个大模型互相比较,“有时候这(zhè)个大模(mó)型更好用,有(yǒu)时那个更好(hǎo)用,当前大模型(xíng)的(de)同质化很严重。”
其(qí)次,说了这么久人工智能,“但真正的Killer APP(杀手级应用)并没有出(chū)现,不仅在C端没有出现,B端也未能出现。很多行业大模型都说自己有(yǒu)不少应(yīng)用,但真正提效的(de)并不多(duō)。”傅盛说,想要将大模型真正变成一个明显(xiǎn)能提效的应用,还很有难度。
泼了盆(pén)冷水的(de)同时,傅盛补充表示,泡沫不见得会使大模型发展崩塌,因为有点泡沫很正(zhèng)常,互联网早期也曾出现泡沫。
在今年6月(yuè)演讲时,金沙江创投主管合(hé)伙人朱啸虎曾(céng)谈及GPT-5一直(zhí)“跳票”时表示,“硅谷也高度怀疑GPT-5还有没有,即使出来在核心推理能力上(shàng)还有没有显著的提(tí)高,这(zhè)是很不确定的东西,今(jīn)年年底是一(yī)个验金石。”他判断,大模(mó)型演化速度有放缓趋势,而迭(dié)代曲线放缓以后,应用层的(de)机会就会更多。
不过,在(zài)波形(xíng)智能(néng)创始人姜昱辰(chén)看(kàn)来,大模型技术迭代其(qí)实并没有放(fàn大模型,何时迎来大转折?g)缓,而是(shì)保持着(zhe)2018年以来的增速,那一年基(jī)于Transformer架构的大规(guī)模语言模(mó)型预训练开始流行(xíng)。从(cóng)博士的自然语言处理研(yán)究(jiū)到大模型创业,姜昱辰更(gèng)早开始经历这轮大模型技术演化的进程。
“大家之所以有这样的(de)感觉(技术迭代放缓)是因为大众是在2022年底、2023年初第一次看到这个技术,做了(le)很多短(duǎn)时间的learning和追赶,追赶(gǎn)当然比较快。”姜昱辰对第一财经表示,把OpenAI做出来(lái)的技术学一遍,不(bù)叫“技术迭代”。
虽然(rán)行业此前有一句“没有应用(yòng)的大模型一文不值”广为传播,但在很多从业者看来(lái),大模型的(de)技术同样重要,因为更好的应用一定建(jiàn)立在更好的技术之上,技术和(hé)应用是一个(gè)相互转化的串联关系。
在MiniMax刚刚过去的(de)伙(huǒ)伴日活动上,闫俊(jùn)杰在讨论(lùn)中提到(dào),“至暗时(shí)刻会(huì)觉得技术很重要。”
很多时候做技(jì)术时,并没有真(zhēn)正意识到技术为(wèi)什么重要。闫俊杰举例表(biǎo)示,用户感受到(dào)的东西可能来自于一些(xiē)产(chǎn)品细(xì)节,或者一些品(pǐn)牌,技(jì)术本身是好多个环节在一起,尤其在繁荣时期,可能分不清什么是主(zhǔ),什么是(shì)次,“当在某些时间点遇到瓶颈的时候,抛开(kāi)所有的表象东西,会意识到技术(shù)才是最终(zhōng)提升的来 源(yuán)。”
“技(jì)术做(zuò)不好的时候(hòu),发现所有东西都是(shì)问题,当技术做好了,似乎所有问题都(dōu)被掩盖了,”闫俊杰表示 ,技术(shù)是一家科技公司(sī)最核心的要素这件事,尽管已(yǐ)深刻(kè)意识到,偶尔还是在继(jì)续(xù)犯错误,“这(zhè)个是我在多 次至暗时刻里最有共性的一件事。”
做技(jì)术也是一件非常奢侈的事,“如果看(kàn)一眼我们每个月的账单还是会非(fēi)常(cháng)心疼的。”在采访中,说到这话时,闫俊杰(jié)几次看向了MiniMax技术总监韩景(jǐng)涛,也就是“账单的(de)制造者”。
因为做技术可能会失败,研发投入很大,闫俊杰此(cǐ)前(qián)很多时候会想要不要走点捷径,但实践经验会证明,走捷(jié)径就会被(bèi)“打脸”,“这个事在我这发生可能超过十次了。”
“一(yī)个东西要(yào)实验三次才能成功,第三次实验成功的(de)时候,会(huì)想前面两(liǎng)次是不是可以不用做,就(jiù)像吃包子吃三(sān)个会(huì)吃饱,就会(huì)想是不是前两个(gè)不用吃(chī)是一样的。”闫俊杰表示,这是做(zuò)技术时(shí)一(yī)个比(bǐ)较容易犯的错误。
在各种关于模型技术细节(jié)的排行榜上,或许GPT-4o的跑分不常出现在第一,甚(shèn)至会在中间,但在MiniMax基于真实客户的测试集中(zhōng),OpenAI的GPT-4o是遥遥(yáo)领先的。
在大模型(xíng)时代,如(rú)何(hé)判断技术的好坏,大众很迷惑,企业同样觉(jué)得很难,但(dàn)这(zhè)个点很(hěn)重(zhòng)要,因为技术的评价标准会决定模(mó)型的迭代(dài)方向,如果指标本身不(bù)对迭代(dài)方向可能就错了。
闫俊杰提(tí)到,MiniMax目前的一个办法(fǎ)是,基于(yú)MiniMax开发平台的3万多个开发(fā)者和付费客户,在他们的场景上构建一个真实使用的测(cè)试集,有些客户对他们的场景非常看重,要求保证产品(pǐn)的效果,基于(yú)这些客(kè)户真实使用的评测是较为客(kè)观的。
“这个测试集上所有国产(chǎn)化模型相比GPT-4o都(dōu)相差较多,其他排行榜基本上GPT-4o都要排到中间去了(le),但是在(zài)我们的(de)排行(xíng)榜(bǎng)上确实GPT-4o排在(zài)最(zuì)靠前。”闫俊杰提到,国内所有模型都与GPT-4o有本质(zhì)的差距,且越(yuè)难的问题差距越大。按照这个评估方式,国产模型的提升空间还很大。
静待下一(yī)转折点
大模型的下一(yī)个 转折点在哪里?众多创(chuàng)业(yè)者有不(bù)同(tóng)的答案,有人认(rèn)为是错误率的降低,有人觉得是个性化的模型,有人认为关(guān)键在于小算力训练出大模型,背后或许意味着架构的改(gǎi)进。
朱啸(xiào)虎曾提(tí)到,今年的大(dà)模型本(běn)身还是有很多错误,且出来的结果不可控,今天落地最困难的是,场(chǎng)景(jǐng)下怎么解(jiě)决错误问题、可控(kòng)问题。
现在所有的(de)模型错误率都(dōu)在20%左右,即两(liǎng)位数的错误率,有时惊艳,有时不靠(kào)谱,闫俊杰(jié)认为,这也是制约模型处理复杂任务的原因,“真正的变(biàn)革是,什么时(shí)间点有一个模(mó)型可(kě)以将错误率(lǜ)降低到个位数(shù)。”这是能增加(jiā)用户使用深度的核心手段(duàn)。
复杂任(rèn)务往往需要(yào)多个步骤(zhòu)“相乘”,较高(gāo)的错误率(lǜ)导致失(shī)败率的指数增(zēng)加。闫俊杰表示(shì),即便是GPT-4这样(yàng)的模型(xíng)也无法支持非常灵活的Agent(智能体),这并不是因为Agent框架写得(dé)不(bù)够(gòu)好,产品做得不好,最根本(běn)的原(yuán)因是模型本身不够好。
但现在可以看到的是,每家公司(sī)有了算(suàn)力,无论是OpenAI、谷歌还是Meta,都在加(jiā)码算(suàn)力。Meta CEO扎克伯格曾在社交媒(méi)体上表示,要建立一个大规模的计(jì)算基础设(shè)施,到2024年底,这一设施将包(bāo)括35万张英伟达H100显卡,业界预估这或(huò)许将耗费近百亿美元。
算法也在进步,OpenAI在2023年只能做出来GPT-4,但2024年能做GPT-4o,虽然性能(néng)差不多,速度快了近10倍(bèi)。
“计算量多了(le)不止10倍,算法也快了10倍(bèi)时,没(méi)有道理说训练不出来一个更好的模型。”闫俊杰(jié)提到,“如果(guǒ)Scaling law(尺度定律)是对的,未来这个模型一定会出现,标志就是个位数的错误率。”
在傅盛看来(lái),降低错(cuò)误率同(tóng)样重要。“今天的(de)大模型有20%-30%的知(zhī)识幻觉,而且‘它不知道 自己不知道’,这是在企业应用上非常重要(yào)的一(yī)大卡点。”想要真正落地一个(gè)应用,得用(yòng)大量工程化的手段去解决以前通(tōng)用人工智能认为它(tā)能干的活,这中间是(shì)有差距(jù)的。
问及大模型技 术的下一个转折点,姜昱辰给了一个不一(yī)样(yàng)的(de)答案,她认为是“个性化”的技术。
“ToB的创业者会觉得错误率降低很重要,因为企业级、工业(yè)级(jí)场景中要的是极高准确率,而(ér)在消费(fèi)场景中,要的是‘懂你(nǐ)’的个人助手。因此,对ToC创业者来说,个性化技术更重(zhòng)要。”对(duì)于不同的答案,姜昱辰解(jiě)释,ToB和ToC不(bù)同的场景下会有不同的感知。
从难度上来说,大(dà)模(mó)型幻觉是概率模型固有的,不容易解决(jué),但(dàn)个性化大 模型确实是技术层面可行(xíng)的。姜昱辰提到,波(bō)形智能目前在做的是这个方向,主要的难点是算(suàn)法,中间需要知道的是,这样的个性化生(shēng)成式模型需(xū)要什么(me)用户信息,如何用于模型自进化。
深(shēn)思考创始人杨志明则认为,下一个转(zhuǎn)折点(diǎn)是,如何利用小算力训练出(chū)大模型、做好 大模型的推(tuī)理,在这背后,当下主流的Transformer架构需要堆积算力,“性价比太低”。架构的改(gǎi)进或许是重要的方向。
值得期(qī)待(dài)的是,近日有消息称,OpenAI将在今年 秋天推出代号为“草莓”(Strawberry)的新模型。作为(wèi)核心技术(shù)突破,草莓可能集成在ChatGPT内(nèi),帮助解决当前AI聊天机器(qì)人难以完成的复(fù)杂(zá)任务,如数学和编程问题(tí)。此外,草莓更会“思考”,在解决强主观性问题上更(gèng)擅长。
“草莓”是前菜,消息人士透露,OpenAI正在开发下一代大型语言模 型(xíng)Orion(猎户座),草莓(méi)将为其生成高质(zhì)量训练数据,以帮助(zhù)减(jiǎn)少大模型幻觉问题。能否(fǒu)突破瓶颈,带(dài)领(lǐng)行业进入下一转折点,最大的可能性还在OpenAI。
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了