人们如何真正使用人工智能:从分析数十亿次互动中得出的惊人真相

AI竟被用来角色扮演?超半数开源模型用于创意故事而非工作,编程需求却暴涨!中国模型崛起占全球30%使用量,智能体推理正颠覆人机交互!

How people really use AI: The surprising truth from analysing billions of interactions

过去一年,我们不断听闻人工智能正在彻底改变生产力——帮助我们撰写邮件、生成代码、总结文档。但现实情况是否与我们被灌输的认知截然不同?

一项由OpenRouter开展的数据驱动研究,通过分析超过100万亿个token(本质上相当于与ChatGPT、Claude等数十个大语言模型的数千亿次对话与互动),揭开了AI真实使用情况的面纱。研究结果对许多关于AI革命的假设提出了挑战。

OpenRouter是一个多模型AI推理平台,其请求可路由至来自60多家供应商的300多个模型——从OpenAI、Anthropic到DeepSeek和Meta的LLaMA等开源替代方案。该平台超过50%的使用量来自美国以外,为全球数百万开发者提供服务,为观察AI在不同地域、用例和用户类型中的实际部署提供了独特的横截面视角。

重要的是,该研究分析了数十亿次互动的元数据,并未触及对话的实际文本,在保护用户隐私的同时揭示了行为模式。

最令人惊讶的发现或许是:超过一半的开源AI模型使用根本与生产力无关,而是用于角色扮演和创意故事创作。

是的,你没看错。当科技高管们吹捧AI变革商业的潜力时,用户们却将大部分时间花在了角色驱动的对话、互动小说和游戏场景中。超过50%的开源模型互动属于此类,甚至超过了编程辅助的使用量。

报告指出:“这与LLM主要用于编写代码、邮件或摘要的假设相悖。实际上,许多用户将这些模型用于陪伴或探索。

这不仅仅是随意聊天。数据显示,用户将AI模型视为结构化的角色扮演引擎,60%的角色扮演token属于特定的游戏场景和创意写作语境。这是一个庞大且很大程度上隐形的用例,正在重塑AI公司对其产品的思考方式。

编程成为增长最快的类别,角色扮演主导开源使用

虽然角色扮演主导了开源模型的使用,但编程已成为所有AI模型中增长最快的类别。2025年初,编码相关查询仅占AI总使用量的11%。到年底,这一数字激增至50%以上

这一增长反映了AI正更深地融入软件开发。编程任务的平均提示长度增长了四倍,从约1500个token增至超过6000个,部分代码相关请求甚至超过2万个token——大致相当于将整个代码库输入AI模型进行分析。

目前,编程查询在整个AI生态系统中生成了一些最长、最复杂的交互。开发者不再仅仅索要简单的代码片段;他们正在进行复杂的调试会话、架构审查和多步骤问题解决

Anthropic的Claude模型在这一领域占据主导地位,在2025年大部分时间里捕获了超过60% 的编程相关使用量,但随着谷歌、OpenAI和开源替代方案的追赶,竞争正在加剧。

中国AI模型崛起,全球使用占比近三成

另一重大发现是:中国AI模型目前约占全球使用量的30%——几乎是2025年初13%份额的三倍。来自DeepSeek、通义千问(阿里巴巴)和月之暗面(Moonshot AI)的模型迅速获得青睐,仅DeepSeek在研究期间就处理了14.37万亿个token。这标志着全球AI格局的根本性转变,西方公司不再拥有无可争议的主导地位。

简体中文现已成为全球AI交互的第二大常用语言,占总使用量的5%,仅次于占比83%的英语。亚洲在AI支出中的总份额从13%翻倍以上增至31%,新加坡成为仅次于美国的第二大使用国

AI进入“智能体推理”新阶段

研究引入了一个将定义AI下一阶段的概念:智能体推理。这意味着AI模型不再只是回答单个问题——它们正在执行多步骤任务、调用外部工具,并在扩展对话中进行推理

被归类为“推理优化”的AI交互比例从2025年初的近零跃升至年底的超过50%。这反映了从AI作为文本生成器到AI作为能够规划和执行的自主智能体的根本性转变。

研究人员解释道:“典型的LLM请求不再是一个简单问题或孤立指令。相反,它是结构化、类似智能体循环的一部分,调用外部工具,对状态进行推理,并在更长的上下文中持续存在。

可以这样理解:你不再要求AI“写一个函数”,而是要求它“调试这个代码库,找出性能瓶颈,并实施解决方案”——而它确实能做到。

“灰姑娘效应”:率先解决关键问题铸就用户忠诚

研究中最引人入胜的见解之一与用户留存有关。研究人员发现了他们称之为“灰姑娘的水晶鞋效应”的现象——即那些率先解决关键问题的AI模型能创造持久的用户忠诚度。

当一个新发布的模型完美匹配了先前未被满足的需求(即比喻中的“水晶鞋”)时,这些早期用户的留存时间远长于后来的采用者。例如,谷歌Gemini 2.5 Pro在2025年6月推出的用户群,在第五个月时仍保留了约40% 的用户,远高于后续用户群。

这挑战了关于AI竞争的传统观念。率先进入市场固然重要,但率先解决高价值问题才能创造持久的竞争优势。用户将这些模型嵌入工作流程,使得切换在技术和行为上都成本高昂。

价格弹性低:用户更看重质量而非成本

或许有违直觉的是,研究显示AI使用对价格相对不敏感。价格下降10%仅对应使用量增加约0.5-0.7%

Anthropic和OpenAI的高端模型每百万token收费2-35美元,同时保持高使用量;而DeepSeek和谷歌Gemini Flash等经济型选项以每百万token低于0.40美元的价格实现了类似规模。两者成功共存。

报告总结道:“LLM市场似乎尚未表现出大宗商品般的特性。用户在成本与推理质量、可靠性和能力广度之间进行权衡。”这意味着AI尚未陷入价格战。质量、可靠性和能力目前仍然可以支撑溢价。

总结:现实远比叙事复杂

OpenRouter的研究描绘了一幅远比行业叙事更为微妙的AI现实使用图景。是的,AI正在改变编程和专业工作。但它也通过角色扮演和创意应用,创造了全新的人机交互类别

市场在地域上日趋多元化,中国正成为一股主要力量。技术正从简单的文本生成演变为复杂的多步骤推理。而用户忠诚度更少取决于率先进入市场,更多取决于率先真正解决问题

正如报告所指出的:“人们使用LLM的方式并不总是符合预期,并且在不同国家、不同州、不同用例之间存在显著差异。

随着AI进一步融入日常生活,理解这些现实世界的模式——而不仅仅是基准分数或营销宣传——将至关重要。我们认为的AI使用方式与实际使用方式之间的差距,比大多数人意识到的要大。这项研究有助于缩小这一差距。

延伸思考

1. 当AI的“生产力工具”叙事与用户实际的“创意伙伴”需求产生巨大偏差时,这对AI企业的产品战略和市场定位意味着什么?企业应如何平衡技术理想与市场需求?
2. 中国AI模型在全球使用量中占比迅速提升至30%,这背后除了技术能力,是否也反映了中文互联网生态、本地化应用场景或数据资源的独特优势?这对全球AI治理和标准制定将产生何种影响?

阅读 ArtificialIntelligence News 的原文,点击链接

Simon