AI神话破灭?2025年企业应用95%零价值,GPT-5发布竟成“三星时代”转折点,这场万亿投资盛宴正面临残酷清算!

The great AI hype correction of 2025

# 2025:人工智能的「祛魅」之年与四种反思视角

当OpenAI在2022年底推出免费网页应用ChatGPT时,它改变了一个行业乃至多个世界经济的轨迹。数百万人开始与计算机对话,而计算机也开始回应。我们为之着迷,并期待更多。

我们确实得到了更多。科技公司争先恐后地推出竞品,在新版本中不断超越彼此:语音、图像、视频。在无休止的竞争中,AI公司将每一次新品发布都标榜为重大突破,强化了人们对此技术将持续进步的普遍信念。鼓吹者告诉我们进步是指数级的。他们发布图表,展示自去年模型以来的巨大进展:看那条线是如何上升的!生成式AI似乎无所不能。

然而,2025年已成为一个「清算之年」。

*本文是《麻省理工科技评论》「祛魅修正」系列的一部分,该系列旨在重新设定对AI本质、其可能性以及我们未来方向的期望。*

一、承诺的幻灭:从「万能工具」到落地困境

首先,顶尖AI公司的领导者们做出了无法兑现的承诺。他们告诉我们,生成式AI将取代白领劳动力,带来丰饶时代,实现科学发现,并帮助找到新的疾病疗法。全球(至少在全球北方)的「错失恐惧症」让CEO们撕毁了原有战略手册,试图加入这场盛宴。

这正是光环开始褪色的时候。 尽管这项技术被宣传为可以革新过时业务流程并削减成本的通用多面手,但今年发布的许多研究表明,企业未能让AI的「魔法粉尘」发挥魔力。包括美国人口普查局和斯坦福大学在内的多方调查和追踪数据显示,企业对AI工具的采用正在停滞。即使工具被试用,许多项目也停留在试点阶段。若没有广泛的经济接纳,大型AI公司将如何收回在这场竞赛中已投入的巨额资金,前景并不明朗。

与此同时,核心技术的更新也不再像过去那样带来阶跃式的变化。

最引人注目的例子是8月份GPT-5的失败发布。OpenAI——这家点燃(并在很大程度上维持了)当前热潮的公司——即将发布其全新一代技术。OpenAI数月来一直在炒作GPT-5:其CEO萨姆·阿尔特曼曾夸口称其为「任何领域的博士级专家」。在另一次场合,阿尔特曼毫无评论地发布了一张《星球大战》中的「死星」图片,被OpenAI的狂热粉丝视为终极力量的象征:即将到来!期望值被拉得极高。

然而,当GPT-5面世时,它似乎只是——更多相同的东西?随之而来的是自三年前ChatGPT首次出现以来最大的氛围转变。AI研究员兼知名YouTuber Yannic Kilcher在GPT-5发布两天后的视频中宣布:「突破性进步的时代已经结束。通用人工智能(AGI)不会到来。我们似乎正处于大语言模型的‘三星Galaxy时代’。」

许多人(包括笔者)将其与手机类比。大约十年间,智能手机曾是世界上最令人兴奋的消费科技。如今,苹果或三星的新品发布已波澜不惊。虽然超级粉丝会仔细研究微小的升级,但对大多数人来说,今年的iPhone看起来和感觉上都与去年的iPhone非常相似。生成式AI是否也走到了这一步?这是个问题吗?当然,智能手机已成为新常态,但它们也改变了世界的运作方式。

需要明确的是,过去几年确实充满了真正的「惊叹」时刻,从视频生成模型质量的惊人飞跃,到所谓推理模型的问题解决能力,再到最新编码和数学模型赢得世界级竞赛。但这项非凡技术仅有几年历史,在许多方面仍处于实验阶段。它的成功伴随着巨大的警告

或许我们需要重新调整我们的期望。

二、大语言模型的局限:并非通往AGI之门

在某些方面,需要修正的是围绕大语言模型的炒作,而非整个AI。显而易见的是,LLMs并非通往通用人工智能的门户。AGI是一种假设性技术,一些人坚信其终有一天能完成人类可以完成的任何(认知)任务。

即使是像伊利亚·苏茨克韦尔这样的AGI布道者——AI初创公司Safe Superintelligence的首席科学家兼联合创始人,前OpenAI首席科学家兼联合创始人——现在也强调LLMs的局限性,而这项技术他本人曾深度参与创造。苏茨克韦尔在11月接受Dwarkesh Patel采访时表示,LLMs非常擅长学习如何完成许多特定任务,但它们似乎并未学会这些任务背后的原理。

这好比学习解决一千个不同的代数问题,与学习解决任何代数问题之间的区别。苏茨克韦尔说:「我认为最根本的一点是,这些模型在泛化能力上不知何故,远逊于人类。」

很容易想象LLMs无所不能,因为它们对语言的使用是如此引人入胜。这项技术模仿人类写作和说话方式的能力令人惊叹。而我们天生倾向于在某些行为方式中看到智能——无论它是否存在。换句话说,我们制造了具有类人行为的机器,并忍不住认为其背后存在一个类人的心智。

这是可以理解的。LLMs成为主流生活的一部分才几年时间。但在此期间,营销人员利用了我们对技术真实能力摇摆不定的认知,推高了期望,加剧了炒作。随着我们与这项技术共存并更好地理解它,这些期望应该回归现实。

三、商业应用的现实:从「零价值」到「影子经济」

7月,麻省理工学院的研究人员发表了一项研究,成为「幻灭阵营」的核心论点。其头条结果是:高达95% 尝试使用AI的企业发现其价值为零

其他研究也呼应了这一主张的核心观点。11月,自由职业者平台Upwork的研究人员发现,由OpenAI、Google DeepMind和Anthropic的顶级LLMs驱动的AI智能体,无法独立完成许多简单的工作场所任务

这与阿尔特曼的预测相去甚远。他今年1月在个人博客上写道:「我们相信,到2025年,我们可能会看到第一批AI智能体‘加入劳动力队伍’,并实质性地改变公司的产出。」

但麻省理工学院那项研究中被忽略的是,研究人员对成功的衡量标准相当狭窄。那95%的失败率,统计的是那些尝试实施定制AI系统,但在六个月后仍未将其推广到试点阶段之外的公司。许多对实验性技术的尝试未能立即成功,这并不太令人意外。

这个数字也不包括员工在官方试点之外使用LLMs的情况。麻省理工学院的研究人员发现,他们调查的公司中约有90%存在一种AI「影子经济」,员工在使用个人聊天机器人账户。但该影子经济的价值未被衡量。

当Upwork的研究观察AI智能体与懂行的人协作完成任务的效果时,成功率大幅上升。结论似乎是:许多人正在自行摸索AI如何帮助他们的工作

这与AI研究员、有影响力的人物(也是「氛围编码」一词的创造者)安德烈·卡帕西的观察相符:聊天机器人在许多不同事情上(如提供法律建议、修复错误、做高中数学)比普通人强,但不如人类专家。卡帕西认为,这或许可以解释为什么聊天机器人受个人消费者欢迎,能帮助非专业人士处理日常问题和任务,但尚未颠覆经济——颠覆经济需要在其工作上超越熟练员工。

这种情况可能会改变。就目前而言,AI尚未对就业产生鼓吹者所说的那种影响,这并不奇怪。AI不是快速解决方案,也无法取代人类。但仍有很大的发展空间。AI融入日常工作流程和业务管道的方式仍在尝试中。

四、泡沫之争:是2008年次贷危机还是2000年互联网泡沫?

如果AI存在泡沫,它像2008年的次贷泡沫还是2000年的互联网泡沫?因为两者有天壤之别。

次贷泡沫摧毁了经济的很大一部分,因为当其破裂时,除了债务和被高估的房地产外,几乎什么也没留下。互联网泡沫摧毁了许多公司,涟漪波及全球,但它留下了初生的互联网——一个国际电缆网络和少数几家初创公司,如谷歌和亚马逊,它们成为了今天的科技巨头。

又或许,我们正处于一个与两者都不同的泡沫中。毕竟,目前LLMs并没有真正的商业模式。我们还不知道杀手级应用会是什么,甚至不知道是否会有杀手级应用。

许多经济学家对投入基础设施以建设能力和满足预期需求的前所未有的资金量感到担忧。但如果需求没有实现呢?再加上许多交易的奇怪循环性——英伟达付钱给OpenAI,OpenAI再付钱给英伟达,等等——难怪每个人对未来的看法都不同。

一些投资者仍持乐观态度。主要国际私募股权公司银湖合伙公司的联合创始人格伦·哈钦斯在11月接受《科技商业编程网络》播客采访时给出了几个不必担心的理由。他说:「每一个数据中心——几乎全部——都有一个有偿付能力的交易对手,签订了合同来接收它们建成后所能提供的全部产出。」换句话说,这不是「建好了他们就会来」的情况——客户已经被锁定了。

他指出,这些有偿付能力的交易对手中最大的之一是微软。「微软拥有世界上最好的信用评级,」哈钦斯说。「如果你与微软签订协议,接收你数据中心的产出,萨提亚(微软CEO)会为此买单。」

许多CEO将回顾互联网泡沫,并试图吸取教训。可以这样看:当时倒闭的公司没有足够的资金坚持到最后。那些在崩盘中幸存下来的公司则蓬勃发展。

铭记这一教训,今天的AI公司正试图通过投入资金来度过这个可能是也可能不是泡沫的时期。留在比赛中;不要掉队。即便如此,这也是一场孤注一掷的赌博。

但还有另一个教训。那些看起来像「杂耍」的公司可能迅速变成独角兽。以为企业制作虚拟形象生成工具的Synthesia为例。风险投资公司Air Street Capital的联合创始人内森·贝奈奇承认,几年前他第一次听说这家公司时(当时对深度伪造的恐惧盛行),他不确定其技术用途,并认为没有市场。

「我们不知道谁会为唇形同步和语音克隆付费,」他说。「结果发现有很多人愿意为此付费。」Synthesia现在拥有约55,000家企业客户,年收入约1.5亿美元。10月,该公司估值达40亿美元。

展望:回归研究时代,价值在于长期

ChatGPT是深度学习十年进步的顶峰,而深度学习是现代AI的基石。深度学习本身的种子在20世纪80年代就已播下。整个领域至少可以追溯到20世纪50年代。如果以此为背景来衡量进展,生成式AI才刚刚起步。

与此同时,研究正处于白热化阶段。提交给世界主要AI会议的高质量论文比以往任何时候都多。今年,一些会议的组织者不得不拒绝审稿人已经批准的论文,仅仅是为了控制数量。(与此同时,arXiv等预印本服务器充斥着AI生成的研究垃圾。)

「又回到了研究的时代,」苏茨克韦尔在那次Dwarkesh采访中谈到当前LLMs的瓶颈时说道。这不是挫折;这是新事物的开始。

「总有很多炒作猛兽,」贝奈奇说。但他认为这也有好处:炒作吸引了实现真正进步所需的资金和人才。「你知道,就在两三年前,构建这些模型的人基本上还是研究书呆子,只是偶然发现了某种有效的东西,」他说。「现在,科技领域擅长任何事情的人都在研究这个。」

无休止的炒作不仅来自公司为其极其昂贵的新技术招揽业务。还有一大批人——行业内外的——愿意相信能够阅读、写作和思考的机器的承诺。这是一个狂野的、延续数十年的梦想

但炒作从来不可持续——这是件好事。我们现在有机会重新设定期望,看清这项技术的真实面貌——评估其真实能力,理解其缺陷,并花时间学习如何以有价值(且有益)的方式应用它。「我们仍在试图弄清楚如何从这个信息与技能的高维黑盒子中,调用某些行为,」贝奈奇说。

这次「祛魅修正」早就该来了。但要明白,AI不会消失。我们甚至还没有完全理解我们已经构建的东西,更不用说接下来会发生什么了。

延伸思考

1. 应用瓶颈与价值创造:当前AI商业应用的困境,更多是技术成熟度的问题,还是企业组织变革与工作流程重塑能力不足的体现?当「影子经济」中的个人应用展现出价值时,这对企业层面的AI战略部署有何启示?
2. 创新范式与期望管理:如果AI的发展正从「突破性发布」阶段进入类似智能手机的「渐进式改进」阶段,这是否意味着其社会影响力将从「颠覆性替代」转向「深度融合与赋能」?我们应如何建立更健康的技术发展预期周期,避免在「狂热」与「幻灭」间剧烈摇摆?

阅读 Technology Review 的原文,点击链接

Simon