您现在的位置是:首页 > 榴榴无忌

GPT-5发布之后

| 人围观 |

清风拂月影2025-08-16 17:38:26

「纽约客」刊出一篇长文评论,充满了这本杂志特有的那种讽刺味儿,就差没把「眼见他起高楼,眼见他宴宾客,眼见他楼塌了」写到脸上了,我手搓翻译了全文,作为睡前读物给你们感受一下。

如果AI不能继续变聪明了,我们该怎么办 - by Cal Newport

所有和AI相关的兴奋和焦虑,源头都能追溯到2020年的1月。

当时,OpenAI的研究团队发布了一份30页的技术报告,题为「神经语言模型的扩展规律」(Scaling Laws for Neural Language Models),撰写者包括后来创办了Anthropic的Dario Amodei,他们试图摸清一个生僻却重要的问题:如果持续增强语言模型的训练规模,它的性能会发生怎样的变化?

那会儿绝大多数机器学习的专家都认为,语言模型达到一定规模后就会开始背题,从而在实际交互中变得不太可用。

但是OpenAI的这篇论文提出了截然相反的判断:语言模型越大,智力就会越高,甚至可以说,这种进化可能遵循类似「冥率分布」的法则,呈现出一条类似曲棍球棒的上升曲线。

换句话说,只要不断构建更大规模的语言模型,并用更大的数据集进行训练,那么模型就会一直变强下去。几个月后,OpenAI发布了GPT-3,它的规模是GPT-2的十倍,性能也大幅提高,似乎验证了「扩展定律」(Scaling Laws)的存在。

一夜之间,那种曾被视为遥不可及的通用人工智能(AGI)——在各项任务里都能表现得和人类一样好——似乎近在咫尺了,如果「扩展定律」成立,AI公司只要向语言模型不断投入资金和算力就能实现通用人工智能。

随后一年里,Sam Altman发布了一篇题为「万物摩尔定律」的博客文章,认为AI将接管人类从事的一般向工作,并为持有资本的人创造难以想象的财富。

他是这么写的:「这场技术革命不可阻挡。世界将发生剧烈变化,我们也必须进行同样剧烈的政策调整,才能公平分配这些财富,并让更多人过上他们想要的生活。」

「扩展定律」必将通向通用人工智能,这成了AI界的信仰。2022年,纽约大学心理与神经科学教授Gary Marcus对OpenAI的那篇论文提出批评,认为「扩展定律」只是一个观察的结果,而非引力这种客观规律。

这下子Gary Marcus捅了马蜂窝,据他所说,自己从来没有因为写了一篇文章而被那么多声名显赫的大佬嘲笑过,从Sam Altman、Greg Brockman到Yann LeCun、Elon Musk,这种待遇实际上把他从机器学习这个圈子里驱逐了出去。

后来发生的故事大家都很熟悉了,ChatGPT成为了史上用户增长最快的产品,2023年3月,GPT-4的发布让AI性能的提高变得匪夷所思,以致于微软专门为此新写了一篇论文,标题是梦幻般的「通用人工智能的火花」,在接下来的一年里,涌入AI行业的风险投资增加了8成。

然而,进展的放缓同样来得猝不及防。GPT-4后的2年多时间里,OpenAI没有发布跨代际的模型,改为专注于一些专业化的版本更新,让普通人难以跟进,业内也开始有声音质疑「扩展定律」的失效。

OpenAI的联合创始人Ilya Sutskever去年曾对路透社表示:「2010年代是扩展的年代,现在我们又回到了探索与发现的年代,大家都在寻找下一个突破点。」

同时期在TechCrunch发布的一篇报道也透露了这种变得普遍起来的情绪:「如今大家好像又承认了,单靠更多的算力和数据来训练模型不能造出一个全知全能的赛博之神。」

不过,这些声音很多时候还是会被那些更为惊人的头条新闻淹没掉,像是Dario Amodei认为「AI几乎已经在所有的智力型任务上超过人类,未来五年内至少会有一半的初级文职工作会被代替」,而Sam Altman和Mark Zuckerberg都在今年夏天宣称距离开发出「超级智能」只差临门一脚。

就在上周,OpenAI终于发布了GPT-5,所有人都期待它能带来AI能力的又一次重大飞跃。在早期评测中,一些表选确实可圈可点。

比如科技博主Mrwhosetheboss要求GPT-5创建一款以宝可梦作为棋子的国际象棋之后,得到的结果很明显比GPT-4 mini-high要好,他还发现 GPT-5能为他的YouTube频道写出比GPT-4o更优秀的脚本,但他也意识到,GPT-4o依然能在生成图片的技能上打败GPT-5,而且GPT-5也不是完全没有幻觉。

几小时内,Reddit的r/ChatGPT版块里就充满了失望的氛围,一个贴子把GPT-5称作「史上最垃圾的付费产品」,在一次AMA问答里,前来做客的Sam Altman和OpenAI的其他工程师全程处于挨批的位置,不得不回应各种尖锐之辞。

Gary Marcus终于舒服了,他给GPT-5的发布会盖棺定论:姗姗来迟、炒作过度、失望透顶。

GPT-5的问世让人们很难再去相信AI界的夸张预测,反而让Gary Marcus这样的批评者变得温和起来。他们认为AI固然重要,但不会很快改变我们现有的生活,大家应该接受现实,那就是AI在短期内不可能变得更好了。

OpenAI不是故意等了将近2年半的时间才发布GPT-5的,根据The Information的报道,去年春天,Sam Altman就告诉员工下一代模型——代号「猎户座」——将明显优于GPT-4。然而,到了秋天,事情就变得不那么乐观了:「尽管新模型的表现的确超过了前代,但相比GPT-3到GPT-4的飞跃,这次的提升幅度要小得多。」

「猎户座」的失利加剧了那种日益蔓延的怀疑:「扩展定律」并非真的定律。如果构建越来越大的模型所产生的回报开始递减,AI公司就需要新的策略来训练它们的模型产品。

很快的,AI公司将目光转向了「后训练」(Post-Training Improvements)。语言模型通常先要经过「预训练」,也就是通过吸收整个互联网的信息来增强智能。但也可以在此之后继续优化,帮助模型更好的利用已经学会的知识,这就是「后训练」,也被称作强化学习,用来指导模型在特定类型的任务上表现更好,或者教会模型在遇到困难时懂得消耗更多Tokens进行解题。

这就好比是造车:「预训练」相当于把车生产出来,「后训练」则是对车辆进行改装。OpenAI的那篇论文提到过,「预训练」越多,造出来的车就越优秀,如果GPT-3是轿车,GPT-4就是跑车。但当这种进步受阻后,行业里的工作重点就切换到让已有车辆的性能变得更好,科学家也开始做起了技师的活儿。

科技巨头们也迅速的圆润起来,开始对「后训练」寄予厚望,微软的掌门Satya Nadella去年表示大家正在看到一个新的「扩展定律」冉冉升起,投资者Anjney Midha也表示「扩展定律」的第二条命启动了。

很快,OpenAI于去年年底发布了o1,通过「后训练」为模型赋予了推理和编程能力,随即又连续发布了o3-mini、o3-mini-high、o4-mini、o4-mini-high 和 o3-pro,每个模型都采用了量身定制的「后训练」组合。

同行也都在做出类似的转身。Anthropic在今年2月发布的Claude 3.7 Sonnet里尝试了「后训练」改进方法,并将其作为Claude 4系列模型的核心。

Elon Musk的xAI在Grok 3之前仍在追求「扩展定律」,其在训练时消耗了惊人的10万块H100芯片——这比GPT-4高出好几倍——但当Grok 3依然没能显着超过竞争对手后,xAI也选择了「后训练」来开发Grok 4。

GPT-5可以说是这种发展轨迹的延续,它更像是对一系列「后训练」产品的整合,而不是一款脱胎换骨的全新模型。

那么问题来了,新的方法能否让我们重返AGI之路?OpenAI在GPT-5的发布中展示了几十张图表,用于量化模型在多语种编程、多模态推理等领域的进步,这没毛病,但我们都还记得,GPT-4的发布时可不需要这么多的图表,每个人使用几分钟后就能感受到它是多么不可思议的创造。

部分基准测试本身也值得怀疑。自从o1问世,AI公司就在宣传推理模型的意义。但在今年6月,苹果发布了一篇论文「思维的错觉」(The Illusion of Thinking),发现所谓先进的推理模型在任务复杂度超过一定阈值后,便会产生性能崩溃的现象,从o3-mini、到Claude 3.7 Sonnet以及DeepSeek-R1,无一幸免。

上周,亚利桑那州立大学的研究团队得出了一个更直白的结论:推理能力是一种假象,一旦出题超过训练范围就会迫使模型宕机,而且在测试题库里拿到高分,和真正解决现实问题之间,存在着巨大的鸿沟。

Gary Marcus还在幸灾乐祸:「我没听到哪家公司会说2025年的模型比2024年的模型更好用,测试的分数可不能拿来提高工作效率。」是的,把你的凯美瑞开进改装店可以带来很大的性能提升,但再怎么改,它也变不成法拉利。

我让包括Gary Marcus在内的几个怀疑论者预测AI在未来几年能对经济产生多大的影响,其中一个科技分析师Ed Zitro断言AI只是一个500亿美金的市场,而非万亿级别,Gary Marcus说得更刺耳,「好的话是500亿,不好的话也就100亿。」

语言学教授Emily Bender则说,「市场的大小取决于有多少管理层会被这项技术蒙蔽双眼,并改造工作岗位,这样的情况越普遍,普通人的处境也就越糟糕。」

他们的观点过去常被当作是「落伍的老头儿老太太们对着天上的云朵哈气」——这来自一条真实的推文评论——公众更加愿意倾听科技公司的宏大愿景。或许,这种局面正在扭转。

如果他们对于AI的悲观预测是对的,那么未来会以渐进而非突变的方式降临,很多人会用AI来查询信息、撰写报告,编程和学术等领域可能会走得稍微快一点,少数职业——比如配音、文案——基本消失,但AI未必会彻底扰乱整个就业市场,而「超级智能」这样的夸张概念也不会再有太大的信徒市场。

继续买单AI这件事情或许也有危险。目前,美股总市值里大概有35%都集中在7巨头身上,这关联到很多人的养老金,而7巨头在过去18个月里总计往AI砸进了5600亿美金的资本支出,而收入却只有350亿,这太疯狂了。

不过,即使是温和派,也在提醒人类不要就此过于轻视AI。Gary Marcus讨厌语言模型,但他也相信,通过别的技术路线,通用人工智能还是有机会在2030年实现。趁着这段喘息期,人类应当提前做好准备,制定有效的监管措施,想清楚伦理问题。

对了,在OpenAI那篇关于「扩展定律」的论文附录里,有一个「注意事项」的篇章,后来的报道往往忽略了此处。作者写道:「目前我们并没有得出完善的理论体系,模型规模和算力供给之间的扩展关系非常神秘。」事实证明,「扩展定律」有时有效,有时无效,终究不是铁律,而教会机器学会思考这一事业,仍然充满谜团。

我们是该少一些傲慢,多一些谨慎。

随便看看