万亿参数驱动AI思考?揭秘大语言模型如何用海量“旋钮”编码世界,其突破性能力背后竟是天文数字般的计算与能耗!

LLMs contain a LOT of parameters. But what’s a parameter?

揭秘AI核心:参数如何驱动大语言模型?

它们是让你最爱的AI模型运转的神秘数字。它们究竟是什么,又扮演着何种角色?《麻省理工科技评论》为你解读:让我们的作者为你梳理技术世界中复杂而混乱的脉络,助你预见未来。你可以在此阅读本系列更多内容。

我写这篇文章,是因为我的一位编辑半夜醒来,在床头记事本上潦草地写下:“什么是参数?”与许多凌晨四点冒出的想法不同,这确实是个好问题——它直指大语言模型(LLM)工作原理的核心。我这么说可不只是因为他是我的老板。(嗨,老板!)

大语言模型的参数常被比作控制其行为的“旋钮和操纵杆”。想象一个行星尺寸的弹球机,它通过数十亿个精心设置的挡板和缓冲器,将弹球从一端弹到另一端。调整这些设置,弹球的运动方式就会改变。

核心数据:OpenAI于2020年发布的GPT-3拥有1750亿个参数。Google DeepMind最新的LLM Gemini 3,参数数量可能至少达到1万亿——有人认为可能接近7万亿——但该公司并未透露。(由于竞争激烈,AI公司不再分享其模型的构建细节。)

然而,参数的基本概念及其如何让LLM实现惊人功能,在不同模型中是一致的。你是否好奇,究竟是什么让LLM真正“运转”起来——那些多彩的弹球机比喻背后是什么?让我们一探究竟。

回想中学代数,比如 2a+b。那些字母就是参数:为它们赋值,就能得到一个结果。在数学或编程中,参数用于设定界限或决定输出。LLM内部的参数以类似方式工作,只是规模大到令人难以置信。

简短答案:一个算法。当模型被训练时,每个参数都被赋予一个随机值。训练过程则包含一系列迭代计算(称为训练步骤),以更新这些值。在训练的早期阶段,模型会犯错。训练算法会分析每个错误,并回溯模型,调整其众多参数中每一个的值,以便下次该错误变小。这个过程不断重复,直到模型的行为符合其创造者的预期。此时,训练停止,模型参数的值被固定下来。

理论上如此! 实践中,由于LLM在巨量数据上训练且包含海量参数,训练它们需要极其庞大的步骤数和令人咋舌的计算量。在训练一个中等规模、如GPT-3这样拥有1750亿参数的LLM时,每个参数都会被更新数万次。总计,这相当于千万亿次(一个带有15个零的数字)的独立计算。这就是为什么训练一个LLM需要消耗如此巨大的能量——我们谈论的是数千台专用高速计算机不间断运行数月

LLM内部有三种不同类型的参数,其值通过训练被赋予:嵌入、权重和偏置。让我们逐一来看。

嵌入:词语的数学化身

嵌入是LLM词汇表中一个词(或词的一部分,称为词元)的数学表示。LLM的词汇表可能包含多达数十万个独特的词元,由设计者在训练开始前设定。但这些词本身没有意义。意义是在训练过程中获得的。

当模型被训练时,词汇表中的每个词都会被赋予一个数值,该数值基于该词在模型训练数据中无数示例的出现方式,捕捉该词相对于所有其他词的含义。

是的。但还不止于此。代表每个词的数值——即嵌入——实际上是一个数字列表,列表中的每个数字代表模型从其训练数据中提取的不同语义层面。这个数字列表的长度是LLM设计者可以在训练前指定的另一项内容。一个常见的尺寸是4096

没错,那就是一个嵌入。其中的每个数字在训练过程中都会被调整。嵌入长度为4096个数字的LLM,被称为具有4096个维度

这看起来可能是个奇怪的数字。但LLM(就像任何在计算机芯片上运行的东西一样)在处理2的幂次方(2, 4, 8, 16, 32, 64等)时效率最高。LLM工程师发现,4096是一个在能力和效率之间达到最佳平衡点的2的幂次方。维度更少的模型能力较弱;维度更多的模型则训练和运行成本过高或速度太慢。

使用更多数字,可以让LLM捕捉关于一个词在多种不同语境中的使用方式、其可能具有的微妙内涵、它与其他词的关系等非常精细的信息。

事件亮点:今年二月,OpenAI发布了GPT-4.5,这是该公司迄今为止最大的LLM(一些估计认为其参数数量超过10万亿)。参与该模型开发的OpenAI研究科学家尼克·莱德当时告诉我,更大的模型可以处理额外信息,比如情感线索,例如当说话者的言语暗示敌意时:“所有这些通过人类对话传递的微妙模式——正是这些越来越大的模型将要捕捉的东西。”

结果是,LLM中的所有词都被编码进一个高维空间。想象成千上万的词漂浮在你周围的空气中。距离较近的词具有相似的含义。例如,“桌子”和“椅子”彼此之间的距离,会比它们与“宇航员”的距离更近,而“宇航员”又靠近“月亮”和“马斯克”。在远处,你还能看到“戏法”。有点像这样,但LLM内部的词不是在三维空间中相互关联,而是在4096个维度上相互关联。

这令人眼花缭乱。实际上,LLM将整个互联网压缩成一个巨大的数学结构,编码了深不可测的相互关联信息。这既是LLM能够做出惊人事情的原因,也是它们无法被完全理解的原因。

权重与偏置:模型内部的调节器

权重是一种参数,代表模型不同部分之间连接的强度——也是调节模型行为最常见的“旋钮”类型之一。当LLM处理文本时,会用到权重。

当LLM读取一个句子(或一个书籍章节)时,它首先查找所有词的嵌入,然后将这些嵌入通过一系列被称为Transformer的神经网络进行处理,这些网络设计用于一次性处理数据序列(如文本)。句子中的每个词都会相对于其他每个词进行处理。

这就是权重发挥作用的地方。嵌入代表的是没有上下文的词义。当一个词出现在特定句子中时,Transformer使用权重来处理该词在这个新语境中的含义。(实践中,这涉及将每个嵌入乘以所有其他词的权重。)

偏置是另一种类型的“旋钮”,用于补充权重的效果。权重设定了模型不同部分被激活(从而将数据传递到下一部分)的阈值。偏置则用于调整这些阈值,使得即使嵌入值较低,也能触发活动。(偏置是加到嵌入上的值,而不是与之相乘。)

通过改变模型各部分被激活的阈值,偏置使模型能够捕捉到原本可能被忽略的信息。想象一下,你试图在一个嘈杂的房间里听清某人说话。权重会最大程度地放大最响亮的声音;偏置则像监听设备上的一个旋钮,能将较安静的声音在混合音中提升。

简而言之:权重和偏置是LLM从给定文本中尽可能多地提取信息的两种不同方式。这两种参数在训练过程中都会被反复调整,以确保它们做到这一点。

神经元:数学运算的组织单元

不,神经元更多是组织所有这些数学运算的一种方式——是权重和偏置的容器,通过它们之间的路径网络串联起来。这非常松散地受到了动物大脑中生物神经元的启发,一个神经元的信号触发下一个神经元的新信号,依此类推。

模型中的每个神经元都持有一个单独的偏置,以及针对模型每个维度的权重。换句话说,如果一个模型有4096个维度(因此其嵌入是4096个数字的列表),那么该模型中的每个神经元都将持有一个偏置和4096个权重。

神经元按层排列。在大多数LLM中,一层的每个神经元都与上一层的每个神经元相连。像GPT-3这样拥有1750亿参数的模型,可能有大约100层,每层有数万个神经元。而每个神经元同时进行着数万次计算。

这真是大量的数学运算。

当LLM处理一段文本时,该文本的数值表示——嵌入——会通过模型的多个层传递。在每一层,嵌入的值(那个4096个数字的列表)都会通过一系列涉及模型权重和偏置(附着在神经元上)的计算被多次更新,直到到达最后一层。

其理念是,输入文本的所有含义、细微差别和上下文,都通过一系列令人难以置信的计算后,由嵌入的最终值所捕获。然后,该值被用于计算LLM应该输出的下一个词。

毫不意外,这比听起来更复杂:模型实际上会计算其词汇表中每个词作为下一个词出现的可能性,并对结果进行排序。然后,它选择排名最高的词。(差不多是这样。见下文……)

这个词被附加到之前的文本块中,整个过程重复进行,直到LLM计算出最可能输出的下一个词是表示其输出结束的信号词。

超参数:设计者的额外控制

当然。嗯……

LLM设计者还可以指定少数其他参数,称为超参数。主要的有温度、top-p和top-k

温度是一个充当“创造力旋钮”的参数。它影响模型对下一个词的选择。我刚才说模型对其词汇表中的词进行排序并选择排名最高的那个。但温度参数可以用来推动模型选择最可能的下一个词(使其输出更真实、更相关),或者选择一个可能性较低的词(使其输出更出人意料、更少机械感)。

top-p和top-k是另外两个控制模型选择下一个词的“旋钮”。它们是迫使模型从一组最可能的词中随机选择一个词,而不是选择排名最高词的设置。这些参数影响模型给人的感觉——是古怪有创意,还是可靠但乏味。

如何让参数发挥最大效能?

这是当前AI领域最热门的问题之一。 实现方式多种多样。研究人员发现,训练数据量至关重要。首先,你需要确保模型看到足够的数据:在太少文本上训练的LLM无法充分利用其所有参数,而在相同数据量上训练的较小模型可能表现更优。

研究人员发现的另一个技巧是过度训练。向模型展示远超以往认为必要的数据量,似乎能让它们表现更好。结果是,在大量数据上训练的小模型,可以胜过在较少数据上训练的大模型。以Meta的Llama LLM为例。拥有700亿参数的Llama 2在约2万亿词文本上训练;而拥有80亿参数的Llama 3则在约15万亿词文本上训练。规模小得多的Llama 3是更好的模型。

第三种技术称为蒸馏,使用一个更大的模型来训练一个更小的模型。小模型不仅在原始训练数据上训练,还在大模型内部计算的输出上训练。其理念是,编码在大模型参数中来之不易的经验教训会“滴入”小模型的参数中,从而提升其性能。

事实上,单一庞大模型的时代可能已经结束。即使是市场上最大的模型,如OpenAI的GPT-5和Google DeepMind的Gemini 3,也可以看作是“几个小模型穿着风衣”。通过一种称为“专家混合”的技术,大模型可以只开启处理特定文本所需的部分自身(“专家”)。这结合了大模型的能力与小模型的速度和低功耗。

但这还不是全部。研究人员仍在探索如何最大限度地发挥模型参数的效能。随着单纯扩大规模带来的收益逐渐减少,仅仅增加参数数量似乎不再像过去那样带来显著差异。关键不在于你拥有多少参数,而在于你如何利用它们。

你想看看一个参数吗?请看:这是一个嵌入。

延伸思考

1. 参数规模竞赛的终点在哪里? 随着“专家混合”等架构创新出现,以及小模型通过海量数据训练也能取得优异表现,未来AI发展的核心驱动力,是会从单纯的参数数量增长,转向更高效的算法、更优质的数据和更精巧的模型架构?
2. “黑箱”难题如何破解? LLM通过海量参数在高维空间编码知识,这使其强大也使其难以理解。随着模型在医疗、法律等关键领域应用加深,我们能否以及如何发展出有效的技术,来解读、验证和约束这些“不可理解”的参数所做出的决策?

阅读 Technology Review 的原文,点击链接

Simon