大模型被普遍视为提升集体工作效率的关键技术。麦肯锡大胆预测,LLM 及其他生成式 AI 技术每年能为全球企业带来高达 4.4 万亿美元的利润增长。尼尔森公司更是宣称,应用这些工具能使员工生产力提升 66%。基于这样的预测,许多公司将寻找并有效利用这些工具作为提高生产力的首要任务。尽管对这种新技术充满好感与认可,我们仍然建议企业尝试要谨慎,不要全面推广至整个公司。
在这股热潮之中,我们有理由怀疑这些工具是否真能如某些预测所说,对企业整体生产力产生革命性影响。其中一个理由是,生产力评估往往关注于单一任务层面,如总结文档、完成演示文稿或应答客户电话等,以及个人如何利用 LLM 并从中获益。将这些具体发现推广到企业层面可能会带来高昂的成本。
以呼叫中心环境中应用生成式 AI 的研究为例,研究者利用了配备 LLM 界面的机器学习平台,专门针对聊天及其结果进行训练。他们通过观察平均聊天完成时间来评估生产力,平均而言,新工具使聊天完成时间提高了 14%。
案例报告:https://www.nber.org/papers/w31161
然而,仔细分析却发现了一些问题。根据我们参考的呼叫中心研究,优秀员工在使用这一系统后的表现实际上有所下降,这对于创新、激励以及保持公司核心人才构成了潜在挑战。
另一项研究发现,对于模型已经充分涵盖的任务,使用生成式 AI 能够明显提高生产力,但当这项技术被用于 LLM 数据覆盖不足或推理能力不足的任务时,生产力却出现下降。随着时间推移,外部条件如文化价值观和公认的最佳实践的变化,可能导致这些优势消失,甚至引发生产力的明显下降。
此外,引入新技术可能导致专家人才流失(这些人才的工作成果是培训这些系统的基础),这一点尚未受到足够的关注。在没有进行更全面和长期分析的情况下,仅依据特定任务的数据来判断新技术如 LLM 对企业整体绩效的影响,是不够的。
因此,我们建议企业在采纳 LLM 时采取更为细致和数据驱动的策略。领导者们应该考虑这项技术真正能带来帮助的领域,并压制将其融入组织中所有工作和任务的冲动。为此,他们需要了解 LLM 的两个关键问题,这些问题对其中长期商业影响至关重要:1)其持续生成令人信服的错误信息的能力;2)长期使用 LLM 可能对员工和内部流程带来的负面影响。
首先,重要的是要认识到,尽管 LLM 在语法流畅性上取得了巨大进步,但这并不意味着它们在自动查找事实方面同样出色 —— 这是计算机科学多年来一直面临的问题,但进展缓慢。
其次,LLM 在提升特定任务的表现方面可能有效,但这可能扭曲了优秀员工的激励机制,并可能在复杂的工作流程中引入系统性风险。当这些问题结合在一起时,可能会在组织中造成难以识别的系统性故障,如果不对生成式 AI 的应用场景进行严格限定并持续监控,这些问题可能会严重影响组织效率。
#01
合理虚构
LLM 以及机器学习本质上是基于过去的数据模式来预测未来,而这些模式可能并不总是准确的。虽然解释 LLM 的工作原理超出了本文的范围,但基本上,这些庞大的模型通过吸收大量文本(如今几乎包括了网络上所有的文本)来构建下一个词的预测模型。在初步训练后,大多数公司会雇佣评注员来对模型的回应进行反馈,以减少生成有害内容的可能性。
重要的是要明白,这些模型并不具备真实或事实的概念(毕竟它们是在互联网上训练的)。LLM 提供的回答只是基于公共文本中的统计可能性。在训练数据中,如果真实信息出现得更频繁,LLM 产生准确回答的可能性就更高。快速浏览最近的新闻,就能找到这些模型自信地提供错误信息的例子。
例如,我(Ben)最喜欢的一个例子是询问这些模型哪些非洲国家以 “K” 字母开头。而我(Nate)最喜欢的是谷歌 Bard 电邮工具偶尔会制造完全虚构的、从未发送过的电子邮件;这完全符合 LLM 的工作机制,但作为一种工具并不总是有用。
遗憾的是,这不是一个容易解决的问题。数十年来,机器学习研究人员一直在尝试将问题映射到事实数据库中,虽然 LLM 提供了一个更连贯的界面,但基于自然语言输入检索事实的核心问题依然未解。LLM 的根本创新 —— 创建一个足够大的模型并使用足够多的数据来学习语法的统计特性 —— 与事实检索无关。
人们常误以为他们可以让 LLM 只给出事实性的回答,但事实上,这并非这项技术的真实运作方式。输入 “只给我提供你能找到来源的输出” 并不能从根本上改变模型,它只是让模型产生看起来像是某人请求来源之后的回答。有时候这可能有效,特别是当某段特定文本在数据中经常出现的时候;但有时候也会失败。我们遇到的一个对 LLM 的幽默描述是 “男式说教即服务”。它有时候是正确的,有时候是错误的,但总是听起来非常权威。
#02
被过去束缚
当在组织背景下考虑这种语言的出现也同样重要。以前面的呼叫中心为例,如果一家公司推出一款新产品,那么就没有与该产品相关的聊天记录可供训练。即使过去的输出是正确的,未来也可能完全错误。
有人可能会说 “好的,我们需要重新训练”,但重新训练同样带来了不少问题。首先,这假设人们足够了解性能变化,能够识别出问题。新产品的发布可能容易识别,但营销策略的变化呢?或者是程序员在代码补全 LLM 中使用的 API 发生变化呢?公司需要实施全面的新流程来有效监控这些潜在的冲突,这可能需要巨大的成本。
而且,虽然任务完成速度的变化容易量化,但准确性的变化则更难以检测。如果员工在五分钟内而非十分钟内完成一份报告,但准确度降低了,我们该如何知晓,并且需要多久才能认识到这种不准确性?
其次,对于优秀员工来说,参与这些工具的再训练的动机已经改变。记住,在上述研究中,复制优秀员工的行为不仅没有帮助,反而阻碍了他们的表现。如果他们的薪酬降低,而其他人的薪酬却提高,他们进行先前的探索性行为(这些行为帮助他们找到创新解决方案)的可能性就会大大减少。他们也可能更倾向于离开公司,进而降低整体系统的性能。
#03
模型崩溃
当这些系统开始基于自身的输出进行训练时,依赖它们的组织将面临所谓的 “模型崩溃” 问题。尽管最初是基于人类生成的文本进行训练,但基于 LLM 自身输出进行训练的 LLM 将迅速降低质量。考虑到这些系统需要在真实环境中不断进行人工重新训练,且它们接受的训练文本至少部分由之前的 LLM 输出生成,这意味着这些系统在几轮训练后可能会提供低质量甚至负面价值。
这只是那些认为这些模型将继续高速改进的人所面临的障碍之一。没有足够多的新文本可供训练,而 LLM 的一个主要创新就是它能够处理大量文本的能力。即使有足够的新文本,这些文本现在也可能因为 LLM 输出的污染而降低了模型的质量。目前已经有证据表明,在当前的模式下,模型的性能可能已达到顶峰。
#04
LLM 影响的长期视角
要完全理解非事实性输出的问题,需要从长期视角出发。以 “ChatGPT 律师” 为例,一位律师使用 ChatGPT 编写法律文书,结果文书中的细节发现错误,给法院和这些律师带来了额外的大量工作。
从任务表现角度看,这种情况下使用 ChatGPT 是成功的。这些律师利用 ChatGPT 在几分钟内写出法律文书,而不是花费几天时间。但从系统角度来看,这是一个巨大的失败。因为 ChatGPT 的输出看起来很权威,甚至会使用 “我” 这样的词汇来增加信任感,即使知道应该仔细核查的人也不太可能去做。在这里使用 ChatGPT 大大降低了整个法院系统的工作效率。
这是一个很容易将 ChatGPT 视为罪魁祸首的案例。但想象一下,如果公司使用 LLM 编写员工手册,员工可能只会仔细阅读前几页看似权威和连贯的文本,之后就可能粗略地浏览。如果手册中出现了错误,可能几年都不会被发现。假设自动生成的员工手册遗漏了有关性骚扰处罚的重要细节,如果日后工作场所发生性骚扰事件,公司发现自己无法解雇肇事者,那么将这一点归咎于使用 LLM 编写手册将非常困难。这种风险在任务层面或短期内是无法准确量化的,需要整体的、组织性的、长期的评估。
#05
带有偏见
解决 LLM 在强化和放大偏见方面的作用至关重要,这一点已在多项研究中得到证实。虽然我们认为仅从道德角度就足以认为这是错误的,组织应该在使用这些系统时保持谨慎,但关注它们的经济效应也很有帮助。
多元化和包容性劳动力的益处已被广泛证实,以至于资产管理者现在正在使用这些指标来指导投资和执行薪酬决策。像 LLM 这样的技术可能通过消除边缘化社区使用的语言类型或者通过糟糕的总结减少它们的贡献,使这些社区感到被忽视或不受欢迎。对于那些在线文本不足以训练 LLM 的语言的母语者来说,LLM 将有更少的数据来提供准确的翻译,进一步加剧了他们的排斥。
由于生成式 AI 很可能会显示出强化社会现状的结果,更多使用这项技术的公司面临着疏远他们边缘化员工的风险。这些群体的较高离职率本身成本高昂,还会限制创意的产生。
#06
高风险的业务
综合来看,这些观点表明,在许多工作领域使用 LLM 存在风险。对于那些事实至关重要的项目和工作流程来说,任何声称这类技术可以提高生产力的说法都必须负担起证明其正确性的重责,这包括必须以全面和长期的视角解决上述以及可能更多的问题(如训练和使用这些模型的环境成本、网络安全风险等)。仅仅进行任务层面的实验是不够的。
当工作涉及总结和综合证据时,LLM 可能是不可靠的。在政策和流程开发或实施、解决纠纷、生成报告等方面,现有证据表明 LLM 可能实际上降低了整体性能,而不是提升它。早期研究还表明,当人们知道生成式 AI 工具被用于生成人际交流内容时,信任可能会明显降低。这对团队进行困难讨论、参与头脑风暴和执行其他关键任务的能力产生了深远影响。
需要指出的是,这类技术还存在我们未在此讨论的其他重大伦理问题。这些问题从社会偏见的扩大和固化到版权侵犯不一而足,因为这些模型倾向于记忆特别独特的数据点。这些问题很重要,它们对 LLM 的法律允许性产生的影响确实增加了额外的风险,但最好在更全面的处理中进行考察。
#07
未来何去何从?
在本文中,我们对围绕 LLM 的炒作表达了怀疑,并主张采取更加谨慎的方法。对 LLM 的夸大宣传可能有助于短期内销售软件或书籍,但从长远来看,不加思索地在整个组织中应用这些模型可能会导致明显的生产力损失。而且,这些生产力损失将难以衡量,危险在于这种难以量化的绩效下滑可能由于这些工具深入整合到不恰当的工作流程中而持续存在。
这并不是说这项技术对某些类型的工作没有用处,而是用户和开发者必须清晰地认识到,我们可以在何种情况下有效且自信地使用 LLM。例如,当人们用非母语写作时,使用 LLM 来改善现有文本,使其听起来更自然、更易于他人理解,这有助于缩小母语者和非母语者之间的差距。
AI 在需要快速生成大量非事实性想法的任务中也显得很有前景。可以想象,专注于这些用例的科技产品,以一种便于组织进行小规模、有针对性实验的方式出现。领导者们应当寻找采用 LLM 在哪些情况下是有帮助的,既不盲目采纳也不盲目拒绝这项技术。
最后,不是每项新的工作技术都会带来公司级别的生产力提升。尽管围绕 AI 的炒作可能让公司合理化用低薪工人替换高薪工人,从而增加短期利润,虽然这种做法牺牲了生产力。但如果我们能够明智地引导、测试并使用生成式 AI,我们就有可能避免这个陷阱。
原文链接:https://hbr.org/2024/01/is-genais-impact-on-productivity-overblown