LLMs包含大量参数。但参数是什么？

万亿参数驱动AI思考？揭秘大语言模型如何用海量“旋钮”编码世界，其突破性能力背后竟是天文数字般的计算与能耗！

LLMs contain a LOT of parameters. But what’s a parameter?

揭秘AI核心：参数如何驱动大语言模型？

它们是让你最爱的AI模型运转的神秘数字。它们究竟是什么，又扮演着何种角色？《麻省理工科技评论》为你解读：让我们的作者为你梳理技术世界中复杂而混乱的脉络，助你预见未来。你可以在此阅读本系列更多内容。

我写这篇文章，是因为我的一位编辑半夜醒来，在床头记事本上潦草地写下：“什么是参数？”与许多凌晨四点冒出的想法不同，这确实是个好问题——它直指大语言模型（LLM）工作原理的核心。我这么说可不只是因为他是我的老板。（嗨，老板！）

大语言模型的参数常被比作控制其行为的“旋钮和操纵杆”。想象一个行星尺寸的弹球机，它通过数十亿个精心设置的挡板和缓冲器，将弹球从一端弹到另一端。调整这些设置，弹球的运动方式就会改变。

核心数据：OpenAI于2020年发布的GPT-3拥有1750亿个参数。Google DeepMind最新的LLM Gemini 3，参数数量可能至少达到1万亿——有人认为可能接近7万亿——但该公司并未透露。（由于竞争激烈，AI公司不再分享其模型的构建细节。）

然而，参数的基本概念及其如何让LLM实现惊人功能，在不同模型中是一致的。你是否好奇，究竟是什么让LLM真正“运转”起来——那些多彩的弹球机比喻背后是什么？让我们一探究竟。

回想中学代数，比如 2a+b。那些字母就是参数：为它们赋值，就能得到一个结果。在数学或编程中，参数用于设定界限或决定输出。LLM内部的参数以类似方式工作，只是规模大到令人难以置信。

简短答案：一个算法。当模型被训练时，每个参数都被赋予一个随机值。训练过程则包含一系列迭代计算（称为训练步骤），以更新这些值。在训练的早期阶段，模型会犯错。训练算法会分析每个错误，并回溯模型，调整其众多参数中每一个的值，以便下次该错误变小。这个过程不断重复，直到模型的行为符合其创造者的预期。此时，训练停止，模型参数的值被固定下来。

理论上如此！ 实践中，由于LLM在巨量数据上训练且包含海量参数，训练它们需要极其庞大的步骤数和令人咋舌的计算量。在训练一个中等规模、如GPT-3这样拥有1750亿参数的LLM时，每个参数都会被更新数万次。总计，这相当于千万亿次（一个带有15个零的数字）的独立计算。这就是为什么训练一个LLM需要消耗如此巨大的能量——我们谈论的是数千台专用高速计算机不间断运行数月。

LLM内部有三种不同类型的参数，其值通过训练被赋予：嵌入、权重和偏置。让我们逐一来看。

嵌入：词语的数学化身

嵌入是LLM词汇表中一个词（或词的一部分，称为词元）的数学表示。LLM的词汇表可能包含多达数十万个独特的词元，由设计者在训练开始前设定。但这些词本身没有意义。意义是在训练过程中获得的。

当模型被训练时，词汇表中的每个词都会被赋予一个数值，该数值基于该词在模型训练数据中无数示例的出现方式，捕捉该词相对于所有其他词的含义。

是的。但还不止于此。代表每个词的数值——即嵌入——实际上是一个数字列表，列表中的每个数字代表模型从其训练数据中提取的不同语义层面。这个数字列表的长度是LLM设计者可以在训练前指定的另一项内容。一个常见的尺寸是4096。

没错，那就是一个嵌入。其中的每个数字在训练过程中都会被调整。嵌入长度为4096个数字的LLM，被称为具有4096个维度。

这看起来可能是个奇怪的数字。但LLM（就像任何在计算机芯片上运行的东西一样）在处理2的幂次方（2, 4, 8, 16, 32, 64等）时效率最高。LLM工程师发现，4096是一个在能力和效率之间达到最佳平衡点的2的幂次方。维度更少的模型能力较弱；维度更多的模型则训练和运行成本过高或速度太慢。

使用更多数字，可以让LLM捕捉关于一个词在多种不同语境中的使用方式、其可能具有的微妙内涵、它与其他词的关系等非常精细的信息。

事件亮点：今年二月，OpenAI发布了GPT-4.5，这是该公司迄今为止最大的LLM（一些估计认为其参数数量超过10万亿）。参与该模型开发的OpenAI研究科学家尼克·莱德当时告诉我，更大的模型可以处理额外信息，比如情感线索，例如当说话者的言语暗示敌意时：“所有这些通过人类对话传递的微妙模式——正是这些越来越大的模型将要捕捉的东西。”

结果是，LLM中的所有词都被编码进一个高维空间。想象成千上万的词漂浮在你周围的空气中。距离较近的词具有相似的含义。例如，“桌子”和“椅子”彼此之间的距离，会比它们与“宇航员”的距离更近，而“宇航员”又靠近“月亮”和“马斯克”。在远处，你还能看到“戏法”。有点像这样，但LLM内部的词不是在三维空间中相互关联，而是在4096个维度上相互关联。

这令人眼花缭乱。实际上，LLM将整个互联网压缩成一个巨大的数学结构，编码了深不可测的相互关联信息。这既是LLM能够做出惊人事情的原因，也是它们无法被完全理解的原因。

权重与偏置：模型内部的调节器

权重是一种参数，代表模型不同部分之间连接的强度——也是调节模型行为最常见的“旋钮”类型之一。当LLM处理文本时，会用到权重。

当LLM读取一个句子（或一个书籍章节）时，它首先查找所有词的嵌入，然后将这些嵌入通过一系列被称为Transformer的神经网络进行处理，这些网络设计用于一次性处理数据序列（如文本）。句子中的每个词都会相对于其他每个词进行处理。

这就是权重发挥作用的地方。嵌入代表的是没有上下文的词义。当一个词出现在特定句子中时，Transformer使用权重来处理该词在这个新语境中的含义。（实践中，这涉及将每个嵌入乘以所有其他词的权重。）

偏置是另一种类型的“旋钮”，用于补充权重的效果。权重设定了模型不同部分被激活（从而将数据传递到下一部分）的阈值。偏置则用于调整这些阈值，使得即使嵌入值较低，也能触发活动。（偏置是加到嵌入上的值，而不是与之相乘。）

通过改变模型各部分被激活的阈值，偏置使模型能够捕捉到原本可能被忽略的信息。想象一下，你试图在一个嘈杂的房间里听清某人说话。权重会最大程度地放大最响亮的声音；偏置则像监听设备上的一个旋钮，能将较安静的声音在混合音中提升。

简而言之：权重和偏置是LLM从给定文本中尽可能多地提取信息的两种不同方式。这两种参数在训练过程中都会被反复调整，以确保它们做到这一点。

神经元：数学运算的组织单元

不，神经元更多是组织所有这些数学运算的一种方式——是权重和偏置的容器，通过它们之间的路径网络串联起来。这非常松散地受到了动物大脑中生物神经元的启发，一个神经元的信号触发下一个神经元的新信号，依此类推。

模型中的每个神经元都持有一个单独的偏置，以及针对模型每个维度的权重。换句话说，如果一个模型有4096个维度（因此其嵌入是4096个数字的列表），那么该模型中的每个神经元都将持有一个偏置和4096个权重。

神经元按层排列。在大多数LLM中，一层的每个神经元都与上一层的每个神经元相连。像GPT-3这样拥有1750亿参数的模型，可能有大约100层，每层有数万个神经元。而每个神经元同时进行着数万次计算。

这真是大量的数学运算。

当LLM处理一段文本时，该文本的数值表示——嵌入——会通过模型的多个层传递。在每一层，嵌入的值（那个4096个数字的列表）都会通过一系列涉及模型权重和偏置（附着在神经元上）的计算被多次更新，直到到达最后一层。

其理念是，输入文本的所有含义、细微差别和上下文，都通过一系列令人难以置信的计算后，由嵌入的最终值所捕获。然后，该值被用于计算LLM应该输出的下一个词。

毫不意外，这比听起来更复杂：模型实际上会计算其词汇表中每个词作为下一个词出现的可能性，并对结果进行排序。然后，它选择排名最高的词。（差不多是这样。见下文……）

这个词被附加到之前的文本块中，整个过程重复进行，直到LLM计算出最可能输出的下一个词是表示其输出结束的信号词。

超参数：设计者的额外控制

当然。嗯……

LLM设计者还可以指定少数其他参数，称为超参数。主要的有温度、top-p和top-k。

温度是一个充当“创造力旋钮”的参数。它影响模型对下一个词的选择。我刚才说模型对其词汇表中的词进行排序并选择排名最高的那个。但温度参数可以用来推动模型选择最可能的下一个词（使其输出更真实、更相关），或者选择一个可能性较低的词（使其输出更出人意料、更少机械感）。

top-p和top-k是另外两个控制模型选择下一个词的“旋钮”。它们是迫使模型从一组最可能的词中随机选择一个词，而不是选择排名最高词的设置。这些参数影响模型给人的感觉——是古怪有创意，还是可靠但乏味。

如何让参数发挥最大效能？

这是当前AI领域最热门的问题之一。 实现方式多种多样。研究人员发现，训练数据量至关重要。首先，你需要确保模型看到足够的数据：在太少文本上训练的LLM无法充分利用其所有参数，而在相同数据量上训练的较小模型可能表现更优。

研究人员发现的另一个技巧是过度训练。向模型展示远超以往认为必要的数据量，似乎能让它们表现更好。结果是，在大量数据上训练的小模型，可以胜过在较少数据上训练的大模型。以Meta的Llama LLM为例。拥有700亿参数的Llama 2在约2万亿词文本上训练；而拥有80亿参数的Llama 3则在约15万亿词文本上训练。规模小得多的Llama 3是更好的模型。

第三种技术称为蒸馏，使用一个更大的模型来训练一个更小的模型。小模型不仅在原始训练数据上训练，还在大模型内部计算的输出上训练。其理念是，编码在大模型参数中来之不易的经验教训会“滴入”小模型的参数中，从而提升其性能。

事实上，单一庞大模型的时代可能已经结束。即使是市场上最大的模型，如OpenAI的GPT-5和Google DeepMind的Gemini 3，也可以看作是“几个小模型穿着风衣”。通过一种称为“专家混合”的技术，大模型可以只开启处理特定文本所需的部分自身（“专家”）。这结合了大模型的能力与小模型的速度和低功耗。

但这还不是全部。研究人员仍在探索如何最大限度地发挥模型参数的效能。随着单纯扩大规模带来的收益逐渐减少，仅仅增加参数数量似乎不再像过去那样带来显著差异。关键不在于你拥有多少参数，而在于你如何利用它们。

你想看看一个参数吗？请看：这是一个嵌入。

—

延伸思考

1. 参数规模竞赛的终点在哪里？ 随着“专家混合”等架构创新出现，以及小模型通过海量数据训练也能取得优异表现，未来AI发展的核心驱动力，是会从单纯的参数数量增长，转向更高效的算法、更优质的数据和更精巧的模型架构？
2. “黑箱”难题如何破解？ LLM通过海量参数在高维空间编码知识，这使其强大也使其难以理解。随着模型在医疗、法律等关键领域应用加深，我们能否以及如何发展出有效的技术，来解读、验证和约束这些“不可理解”的参数所做出的决策？

阅读 Technology Review 的原文，点击链接。

LLMs包含大量参数。但参数是什么？

揭秘AI核心：参数如何驱动大语言模型？

嵌入：词语的数学化身

权重与偏置：模型内部的调节器

神经元：数学运算的组织单元

超参数：设计者的额外控制

如何让参数发挥最大效能？

延伸思考

由 Simon

您错过了

信用合作社、金融科技与金融服务的人工智能拐点

摩根大通将人工智能支出视为核心基础设施

The Download：美国数字权利打击行动与人工智能伴侣

超越试点项目：迈向可组合与主权人工智能

Recent Post

LLMs包含大量参数。但参数是什么？

揭秘AI核心：参数如何驱动大语言模型？

嵌入：词语的数学化身

权重与偏置：模型内部的调节器

神经元：数学运算的组织单元

超参数：设计者的额外控制

如何让参数发挥最大效能？

延伸思考

由 Simon

相关文章

The Download：美国数字权利打击行动与人工智能伴侣

超越试点项目：迈向可组合与主权人工智能

因打击网络仇恨而被美国禁止入境是什么感受

您错过了

信用合作社、金融科技与金融服务的人工智能拐点

摩根大通将人工智能支出视为核心基础设施

The Download：美国数字权利打击行动与人工智能伴侣

超越试点项目：迈向可组合与主权人工智能