我们首先了解到,生成式人工智能模型会出现“幻觉”,这是一种优雅的说法,指的是大型语言模型会编造东西。正如 ChatGPT 自己告诉我的那样(这次是可靠的),大型语言模型可以生成虚假的历史事件、不存在的人物、虚假的科学理论以及虚构的书籍和文章。现在,研究人员告诉我们,一些大型语言模型可能会在自身缺陷的重压下崩溃。这真的是我们这个时代花费了数千亿美元的奇迹技术吗?
在上周发表在《自然》杂志上的一篇论文中,一个研究小组探讨了训练人工智能系统中“数据污染”的危险以及模型崩溃的风险。最新的生成式人工智能模型已经吸收了互联网上数万亿的人类生成词汇中的大部分,现在越来越依赖于人工智能模型本身创建的合成数据。然而,这种由机器人生成的数据可能会损害训练集的完整性,因为它会导致差异性的损失和错误的复制。“我们发现,在训练中不加选择地使用模型生成的内容会导致最终模型出现不可逆转的缺陷,”作者总结道。
看起来,就像神话中的古代巨蛇衔尾蛇一样,这些模型正在吞噬着自己的尾巴。
该论文的第一作者伊利亚·舒马伊洛夫在牛津大学担任研究员期间告诉我,这项研究的主要收获是,随着高质量数据变得越来越稀缺,生成式人工智能的发展速度可能会放缓。“这篇论文的主要前提是我们目前正在构建的系统将会退化,”他说。
研究公司 Epoch AI 估计,目前有 300 万亿个标记(数据的最小单位)的人类生成的公共文本足以用于训练目的。根据其预测,到 2028 年,这些数据库存可能会被耗尽。然后,将没有足够的新鲜的、高质量的人类生成数据来输入料斗,而过度依赖合成数据可能会产生问题,正如《自然》杂志的论文所暗示的那样。
这并不意味着主要由人类生成的数据训练而成的现有模型将变得毫无用处。尽管它们有产生幻觉的习惯,但它们仍然可以应用于无数用途。事实上,研究人员表示,早期在未受污染数据上训练的大型语言模型可能会具有先发优势,而下一代模型现在无法获得这些数据。逻辑表明,这也会增加新鲜的、私有的、人类生成数据的价值——出版商要注意了。
模型崩溃的理论危险已经被讨论了很多年,研究人员仍然认为,区别使用合成数据可能非常有价值。即便如此,人工智能研究人员显然将不得不花费更多的时间和金钱来清理他们的数据。Hugging Face 是一家正在探索最佳清理数据方法的公司,它是一个由研究社区使用的协作机器学习平台。
Hugging Face 一直在创建高度精选的训练集,包括合成数据。它还一直专注于特定领域(如医学和科学)的小语言模型,这些模型更容易控制。“大多数研究人员都讨厌清理数据。但你必须吃掉你的蔬菜。在某些时候,每个人都必须投入时间来做这件事,”Hugging Face 的机器学习工程师安东·洛日科夫说。
尽管生成式人工智能模型的局限性正变得越来越明显,但它们不太可能破坏人工智能革命。事实上,现在可能会重新关注相邻的人工智能研究领域,这些领域最近一直相对被忽视,但可能会带来新的进步。一些生成式人工智能研究人员对具身人工智能(如机器人和自动驾驶汽车)的进展特别感兴趣。
今年早些时候,当我采访认知科学家艾莉森·高普尼克时,她认为真正构建基础人工智能的是机器人专家:他们的系统不是被囚禁在互联网上,而是冒险进入现实世界,从互动中提取信息,并据此调整反应。
“如果你真的想设计出真正智能的东西,那就是你需要走的路线,”她建议道。
毕竟,正如高普尼克指出的那样,这正是生物智能在 5 亿多年前从原始沼泽中出现的方式。我们最新的生成式人工智能模型可能会以其能力让我们着迷。但它们仍然有很多东西要向最原始的蠕虫和海绵的进化史学习。