
(来源:MIT TR)
本文为《麻省理工科技评论》“纠偏热潮”(Hype Correction)专题系列的一部分,该系列旨在重置人们对 AI 的预期:AI 是什么、它能带来什么、以及我们接下来该走向何处。
2022 年,当生成式 AI 热潮席卷而来时,鲁迪·米勒(Rudi Miller)和她的法学院同学突然被焦虑攫住。“在毕业前,我们就在讨论:如果 AI 被广泛采用,我们的就业市场会变成什么样。”她回忆说。
因此,当需要选择专业方向时,如今在奥睿律师事务所(Orrick)担任初级律师的米勒,决定走诉讼律师(litigator)这条路,也就是在法庭上为客户出庭辩护的那类律师。她希望法庭会是人类最后的舞台。“法官还没允许搭载 ChatGPT 的机器人在法庭上辩论呢。”她说。
她的担心并非毫无根据:“人工智能引发的职业末日”似乎正冲着律师而来。2023 年 3 月,研究人员报告称 GPT-4 在统一律师资格考试(Uniform Bar Exam)中取得了惊人的成绩。同月,一份行业报告预测,44% 的法律工作可能被自动化。随着律所开始采用生成式 AI 来挖掘堆积如山的文件并起草合同,这些原本由初级律师承担的工作推动了法律科技行业的繁荣。上个月,佳利律师事务所(Clifford Chance)以 AI 使用增加为由,在伦敦裁撤了 10% 的员工。
但无论外界如何热炒,大语言模型(LLM)距离“像律师那样思考”仍相去甚远,更别提取代律师。模型仍会编造判例引用,在法律的灰色地带难以自如穿行,也不擅长对新颖问题进行推理;当它们试图整合分散在成文法、监管规则与法院判决中的信息时,也常常出错。更重要的是,从制度层面看,模型要替代法律岗位也面临更深的障碍。AI 的确正在重塑这一行业的基础性、重复性工作,但律师的终结恐怕短期内并不会到来。

一场大实验
法律行业长期以来以加班与高强度工作著称,因此,AI “超人级效率”的赋能格外诱人。律所正在试用 ChatGPT、Microsoft Copilot 等通用工具,也在试用 Harvey、汤森路透(Thomson Reuters)的 CoCounsel 等法律专用工具;还有一些律所在前沿模型之上自建内部工具。他们开设 AI 训练营,甚至允许律师把数百小时的 AI 实验计入可计费工时。美国律师协会(American Bar Association)的数据显示,截至 2024 年,在雇用 500 名以上律师的律所中,47.8% 的律师使用了 AI。
但律师们表示,LLM 的推理能力距离足以取代他们还差得很远。麦德莫特·威尔与埃默里(McDermott Will & Schulte)的初级律师卢卡斯·黑尔(Lucas Hale)已经在许多例行琐事上拥抱 AI。他用 Relativity 筛查冗长文件,用 Microsoft Copilot 起草法律引用。但当他向ChatGPT 抛出复杂法律问题时,得到的往往是胡编乱造、跑题连篇,或者干脆回答不上来。
“当我们遇到一个非常狭窄的问题,或者遇到法院从未裁决过的首例问题(question of first impression)时,”他说,指的是一种法院此前没有先例的新型法律问题,“这类思考是工具做不到的。”
卢卡斯的很多工作,需要把法律创造性地应用到新的事实情境中。“至少就我所做的工作而言,我觉得诉讼律师的大部分工作,目前还不可能外包给某个 AI 工具。”他说。
珍纳与布洛克(Jenner & Block)的高级律师艾莉森·道格利斯(Allison Douglis)会用 LLM 来启动法律检索,但这些工具只能帮到一定程度。“当真正需要以诉讼律师的方式把论证展开、把论点打磨出来时,我认为它们还达不到。”她说。她也见过模型编造判例引用,并在法律的模糊地带里磕磕绊绊。
“现在,我宁愿和一名初级律师一起工作,也不愿意和一个 AI 工具一起工作。”她说,“除非它们在很短时间内变得异常强大,否则我很难想象这种情况会在近期改变。”

超越法考
自从 ChatGPT 在律师资格考试中大放异彩之后,法律行业看上去就像是最适合被 AI 接管的领域之一。但通过一场标准化考试,并不等于能够执业。考试测的是人们能否记住法律规则,并把它们应用到假设情境中,而不是测他们能否在复杂现实中做出战略判断,或在没有先例的法律领域里构建论证。更何况,模型可以被训练到在基准测试中拿高分,却并不意味着推理能力真的提升了。
不过,新的基准测试正在尝试更好地衡量模型在现实世界里完成法律工作的能力。11 月,由 ScaleAI 发布的“专业推理基准”(Professional Reasoning Benchmark),用业内专业人士设计的法律与金融任务来评估领先的 LLM。研究发现,这些模型在可被专业采用的可靠性方面存在关键缺口:在最难的法律问题上,表现最好的模型得分也只有 37%,也就是在评估标准中只拿到了略高于三分之一的分数。模型经常做出不准确的法律判断;即便得出了正确结论,也往往是通过不完整或不透明的推理过程达成的。
论文第一作者阿芙拉·费扎·阿居雷克(Afra Feyza Akyurek)说:“这些工具实际上还做不到去替代你的律师。即使很多人认为 LLM 对法律掌握得不错,它仍然落后于真正的需求。”
这篇论文也延续了其他衡量模型在具备经济价值的工作上表现的基准测试思路。数据公司 Mercor 在 9 月发布并于 12 月更新的“AI 生产力指数”(AI Productivity Index)发现,模型在完成法律工作方面存在“显著局限”。表现最好的模型在法律任务上得分为 77.9%,意味着它大致满足了五项评估标准中的四项。研究早期版本指出,这样的得分在某些行业或许能带来可观经济价值,但在“错误代价高昂”的领域,它可能完全不够用。
专业基准测试是评估 LLM 现实能力的一大进步,但它们仍可能无法覆盖律师工作的真实面貌。华盛顿大学法学院的法学教授乔恩·崔(Jon Choi)说:“这些问题虽然比过去基准测试更难,但仍无法充分反映律师在现实中面对的那类带有主观性、且极其棘手的问题。”他在 2023 年共同撰写过一项关于法律基准测试的研究。
与数学或编程不同,LLM 在后两者上已经取得显著进展,但法律推理可能是它们更难学会的能力。崔表示,法律处理的是混乱的现实问题,充满模糊性与主观性,很多时候并不存在唯一正确答案。更糟糕的是,他说,许多法律工作并不会以可用于训练模型的方式被记录下来。即便有记录,相关材料也可能长达数百页,分散在成文法、监管规则与法院判决之中,并且它们处于一个层级复杂的体系里。
但更根本的限制或许在于,LLM 本来就不是按“像律师那样思考”来训练的。斯坦福法学院教授朱利安·尼亚尔科(Julian Nyarko)说:“推理模型仍然无法像人类那样完整地对问题进行推理。”他表示,模型可能缺少一种对世界的心理模型,也就是模拟情景并预测将会发生什么的能力,而这恰恰可能是复杂法律推理的核心。他也指出,依靠“预测下一个词”来训练 LLM 的当前范式,或许只能带我们走到某个程度。

岗位仍在
尽管已经出现一些迹象表明 AI 正在影响入门级岗位,但劳动力统计数据尚未显示律师正在被挤出市场。全国法律职业安置协会(National Association for Law Placement)数据显示,2024 年法学院毕业生在毕业后 10 个月内实现就业的比例为 93.4%,创下历史最高纪录。2023 年到 2024 年,在律所工作的毕业生人数增长了 13%。
目前,律所缩减队伍的动作仍然缓慢。Ropes & Gray 律所的律师人才负责人艾米·罗斯(Amy Ross)说:“我们现在并没有削减人员编制。”
即便把时间线拉长,影响也可能是渐进式的。麻省理工学院经济学家默特·德米雷尔(Mert Demirer)说:“我预计法律职业的劳动力市场会受到一些影响,但不会很大。”他表示,“AI 在信息检索与摘要方面会非常有用”,但对于复杂法律任务来说,“法律行业的低风险容忍度,加上 AI 目前的能力水平,会让这类工作在现阶段更难被自动化。”能力当然可能随时间演进,但这仍是一个巨大的未知数。
问题并不只是模型本身还没准备好取代初级律师。制度性障碍同样会影响 AI 的落地方式。生产率提高意味着可计费工时减少,这会挑战律所主导性的商业模式:律师行业对责任追究极为敏感,客户可能仍希望由真人承担最终责任;监管也可能限制律师使用这类技术的方式。
尽管如此,随着 AI 接手一部分助理律师的工作,律所可能不得不重塑自己的培养体系。宾夕法尼亚大学沃顿商学院管理学教授伊桑·莫里克(Ethan Mollick)说:“当初级工作逐渐枯竭时,你就必须用一种更正式的教学方式,而不能再寄希望于学徒制自然而然就能奏效。”
麦德莫特·威尔与埃默里(McDermott Will & Schulte)的初级律师扎克·库格(Zach Couger)依赖 ChatGPT来梳理成堆的合同,而这些合同他过去得靠手工硬啃。他无法想象再回到自己亲自做这件事的日子,但他也在想,自己因此错过了什么。
“我担心自己没有获得资深律师当年那种同样的‘重复训练’,”他说,这指的是长期以来定义了律师早期经历的反复练习。“但另一方面,能有一个半个‘知识专家’随时供我提问也挺好,而且它不是一个同样忙得不可开交的合伙人。”
即便“AI 引发的职业末日”看起来仍很遥远,不确定感还是挥之不去。最近,库格常常熬夜,想着自己会不会成为大型律所里最后一批助理律师之一:“我可能就是最后一班离开的飞机。”
原文链接:
https://www.technologyreview.com/2025/12/15/1129181/ai-might-not-be-coming-for-lawyers-jobs-anytime-soon/