AI能通过律师考试,却难在法庭辩论?47.8%律师已用AI,但37分专业测试暴露其推理短板,人类律师的“黄金时代”会终结吗?

生成式AI或许能高分通过律师资格考试,但大型语言模型(LLM)仍无法像律师一样思考。当2022年生成式AI热潮兴起时,法律系学生鲁迪·米勒和她的同学们突然陷入焦虑。”毕业前,大家都在讨论如果AI被广泛应用,我们的就业市场会变成什么样,”她回忆道。
因此,在选择专业方向时,如今已是奥睿律师事务所初级律师的米勒决定成为一名诉讼律师——即在法庭上代表客户的律师。她希望法庭能成为人类最后的舞台。”法官目前还不允许搭载ChatGPT的机器人在法庭上辩论,”她说。
她的担忧不无道理。人工智能带来的职业危机似乎正向律师行业逼近。2023年3月,研究人员报告称GPT-4在统一律师资格考试中取得高分。同月,一份行业报告预测44%的法律工作可能被自动化。随着律所开始采用生成式AI处理海量文件检索和合同起草(这些传统上由初级律师承担的工作),法律科技行业进入繁荣期。上月,高伟绅律师事务所以”AI使用增加”为由裁减了伦敦办公室10%的员工。
然而,尽管炒作不断,LLM距离像律师一样思考——更不用说取代他们——仍然遥远。 这些模型仍会编造案例引用,难以处理法律灰色地带和新颖问题,在整合散见于法规、条例和判例中的信息时也频频出错。更深层的制度性原因也让人怀疑AI能否取代法律职位。虽然AI正在重塑法律行业中繁重的基础工作,但律师的终结远未到来。
法律行业素以超长工时和繁重工作著称,因此AI带来的超人效率极具吸引力。律所正在试用ChatGPT、微软Copilot等通用工具,以及Harvey、汤森路透CoCounsel等专业法律工具,部分律所还在前沿模型基础上自建内部工具。它们推出AI训练营,并允许律师将数百小时计费时间用于AI实验。根据美国律师协会数据,截至2024年,在拥有500名以上律师的律所中,47.8%的律师已使用AI。
但律师们指出,LLM的推理能力远未达到替代人类的水平。麦德默特律师事务所初级律师卢卡斯·黑尔虽将AI用于许多日常事务——用Relativity筛选长文档,用微软Copilot起草法律引用——但当向ChatGPT提出复杂法律问题时,他发现聊天机器人要么胡言乱语,要么离题万里,要么直接卡壳。
“当我们遇到非常具体的问题,或是法院从未裁决过的新颖法律问题时,”他说,”这正是AI工具无法完成的那类思考。”卢卡斯的大部分工作涉及创造性地将法律应用于新的事实模式。”目前,我认为诉讼律师的工作——至少是我的工作——几乎无法外包给AI工具。”
詹纳布洛克律师事务所高级律师艾莉森·道格利斯用LLM开启法律研究,但工具的作用有限。”在作为诉讼律师真正展开和构建论点时,我认为它们还做不到。”她目睹过模型编造案例引用,在法律模糊领域束手无策。”目前,我宁愿与初级律师合作,也不愿用AI工具。除非它们进步神速,否则短期内这种情况不会改变。”
自ChatGPT在律师考试中取得佳绩后,法律行业似乎已为AI接管做好准备。但通过标准化考试不等于能执业。考试测试的是人们能否记忆法律规则并将其应用于假设情境——而非能否在复杂现实中行使战略判断,或在未知法律领域构建论点。况且,模型可以被训练得在基准测试中表现出色,却未必真正提升推理能力。
不过,新的基准测试正试图更好地衡量模型在现实世界中处理法律工作的能力。ScaleAI去年11月发布的专业推理基准评估了领先LLM在法律和金融专业任务上的表现。研究发现,模型在专业应用可靠性上存在关键缺陷,表现最佳的模型在最难法律问题上仅得37分(即仅满足评估标准三分之一的要求)。模型经常做出错误法律判断,即便得出正确结论,其推理过程也不完整或不透明。
论文主要作者阿夫拉·费扎·阿库雷克指出:”这些工具实际上还无法替代你的律师。尽管很多人认为LLM对法律有很好掌握,但它仍然落后。”该研究建立在其他衡量模型在经济价值工作中表现的基准之上。数据公司Mercor发布的AI生产力指数发现,模型在执行法律工作时存在”实质性局限”。表现最佳的模型在法律任务中得分为77.9%(即满足约五分之四的评估标准)。研究早期版本指出,这样的得分在某些行业可能产生巨大经济价值,但在错误代价高昂的领域,它可能毫无用处。
专业基准测试是评估LLM现实能力的重要进步,但仍可能无法捕捉律师的实际工作。”这些问题虽然比以往基准测试更具挑战性,但仍未完全反映律师在现实中处理的主观性极强、极其复杂的问题,”华盛顿大学法学院教授乔恩·崔说。与LLM已取得重大进展的数学或编程不同,法律推理对模型而言可能更难掌握。崔教授指出,法律处理的是混乱的现实问题,充满模糊性和主观性,往往没有正确答案。更糟的是,许多法律工作并未以可训练模型的方式记录。即便有记录,文件也可能长达数百页,散落在复杂层级的法规、条例和判例中。
但更根本的局限可能是LLM根本未被训练得像律师一样思考。”推理模型仍无法像人类那样完全推理问题,”斯坦福法学院教授朱利安·尼亚科说。模型可能缺乏对世界的心智模型——即模拟场景并预测结果的能力——而这可能是复杂法律推理的核心。当前基于下一个词预测训练的LLM范式,其能力可能仅止于此。
尽管有早期迹象表明AI开始影响初级工作者,但劳动力统计数据尚未显示律师被取代。根据全美法律就业协会数据,2024年93.4%的法学院毕业生在毕业10个月内就业——创历史新高。2023年至2024年,在律所工作的毕业生人数增长了13%。
目前,律所裁员步伐缓慢。”我们现阶段没有减少人员,”罗普斯格雷律师事务所律师人才主管艾米·罗斯表示。展望未来,影响可能是渐进的。”我预计会对法律职业劳动力市场产生一定影响,但不会很大,”麻省理工学院经济学家默特·德米尔说。”AI在信息发现和总结方面将非常有用,”但对于复杂法律任务,”法律行业的低风险容忍度加上AI当前能力,将使这类工作目前较难自动化。”能力可能随时间演进,但这仍是巨大未知数。
不仅模型本身尚未准备好取代初级律师,制度性障碍也可能影响AI的部署方式。更高的生产力减少了计费工时,挑战了律所的主流商业模式。责任风险对律师而言至关重要,客户可能仍希望由人类承担责任。法规也可能限制律师使用该技术的方式。
尽管如此,随着AI承担部分助理工作,律所可能需要重塑培训体系。”当初级工作枯竭时,必须有更正式的教学方式,而不能只指望学徒制奏效,”宾夕法尼亚大学沃顿商学院管理学教授伊桑·莫利克说。
麦德默特律师事务所初级律师扎克·库格依靠ChatGPT梳理他曾手工处理的成堆合同。他无法想象再回到亲自工作的状态,但也担心自己错过了什么。”我担心自己得不到资深律师曾有的重复训练机会,”他说。”另一方面,能向一个半知识专家提问——而不是向同样忙碌的合伙人——确实很好。”
尽管AI引发的职业危机看似遥远,不确定性仍萦绕在他心头。最近,库格常熬夜思考自己是否会成为大律所最后一批初级律师之一:”我可能是最后一班飞机了。”
—
延伸思考
1. 当AI承担了法律行业中大量基础性、重复性工作后,未来法律人才的培养体系将如何重构?传统的”学徒式”成长路径被打破后,新一代律师的核心竞争力将是什么?
2. 在法律这类高风险、高责任、高模糊性的专业领域,人类与AI的协作边界最终会划在哪里?是AI辅助人类,还是人类监督AI?责任归属又该如何界定?
阅读 Technology Review 的原文,点击链接。