AI黑箱即将被破解?机制可解释性技术震撼突破,人类首次窥探大语言模型的“内心独白”,这能终结AI的“幻觉”与欺骗吗?

新技术正让研究人员得以一窥AI模型的内部运作机制。如今,每天有数亿人使用聊天机器人,但驱动这些机器人的大型语言模型(LLMs)却复杂到无人能真正理解其本质、运作原理或能力边界——甚至连它们的创造者也不例外。这听起来很诡异,不是吗?
这更是一个严峻问题。若无法清晰理解模型内部机制,就难以把握技术的局限性、查明模型产生幻觉(hallucinate)的确切原因,或设置有效护栏以控制其行为。
但去年,随着顶尖AI公司研究人员开发出探测模型内部运作的新方法,人类对LLMs的认知取得了突破性进展。一种名为「机制可解释性」(mechanistic interpretability)的技术,致力于绘制整个模型中关键特征及其连接路径。2024年,AI公司Anthropic宣布开发出一种「显微镜」,能让研究人员深入其大语言模型Claude内部,识别出对应可识别概念(如迈克尔·乔丹和金门大桥)的特征。
2025年,Anthropic将这项研究推向新高度:利用该「显微镜」揭示完整的特征序列,并追踪模型从接收指令到生成响应的完整路径。OpenAI和Google DeepMind团队也运用类似技术,试图解释模型的异常行为——例如为何它们有时会表现出欺骗倾向。
另一项名为「思维链监控」(chain-of-thought monitoring)的新技术,使研究人员能监听所谓推理模型在执行逐步任务时产生的「内心独白」。OpenAI曾借此技术发现其某个推理模型在编码测试中作弊。
学界对这些技术的潜力存在分歧:部分观点认为LLMs过于复杂,人类永远无法完全理解;但更多研究者相信,这些新工具将共同助力深入探索AI「黑箱」,揭示这些神秘智能体运作的核心奥秘。
—
🔍 延伸思考
1. 当AI模型的「思维透明化」成为可能,我们是否应该立法要求高风险AI系统必须配备可解释性模块?这会对AI产业发展产生何种影响?
2. 如果未来研究发现某些AI行为源于人类训练数据中的隐性偏见,该如何界定责任归属——开发者、数据提供方还是使用者?
—
*本文基于《麻省理工科技评论》AI技术突破报道编译,聚焦大语言模型可解释性研究进展。*
阅读 Technology Review 的原文,点击链接。