【模型技术基础解析】
O1的思考原理概述:在响应用户之前,它可以产生一个很长的内部思维链(CoT)。大规模强化学习算法教会模型如何在数据高效的训练过程中使用思维链(CoT,Chain of Thought)进行高效思考。OpenAI发现,随着强化学习的增加(训练时计算)和思考时间的增加(测试时计算),o1的性能会不断提高。扩展这种方法的限制与 LLM 预训练的限制有很大不同。
2022年,在Google发布的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中首次提出思维链(Chain of Thought),思维链就是一系列中间的推理步骤。通过让大模型逐步参与将一个复杂问题分解为一步一步的子问题并依次进行求解的过程可以显著提升大模型的性能。(参考自:https://blog.csdn.net/Julialove102123/article/details/135499567)
思路链显著提高了模型的推理能力:类似于人类在回答困难问题之前可能会思考很长时间,o1 在尝试解决问题时使用思维链(CoT)。
1)通过强化学习,o1学会锻炼其思维链(CoT)并改进它使用的策略;
2)学会识别和纠正错误;
3)学会将棘手的步骤分解为更简单的步骤;
4)学会了在当前方法不起作用时尝试不同的方法
思维链(CoT)的隐藏:OpenAI相信,隐藏的思维链为监控模型提供了独特的机会。隐藏的思维链(CoT)使我们能够“读取模型的思想”并理解其思维过程。例如,将来可能希望监控是否有操纵用户的迹象。然而,要做到这一点,模型必须能够自由地以不变的形式表达其想法,因此OpenAI不能将任何政策合规性或用户偏好训练到思维链(CoT)上。OpenAI也不想让用户直接看到一个不对齐的思路。因此,在权衡了包括用户体验、竞争优势和追求思维链监控选项在内的多种因素后,OpenAI决定不向用户展示原始思维链,并承认此决定有缺点。同时,OpenAI努力通过使模型在答案中重现思维链中的任何有用想法来部分弥补它。对于 o1 模型系列,OpenAI展示了模型生成的思路链摘要。
【论文解读】
OpenAI o1模型的技术核心建立在提升大语言模型多步推理能力的研究基础上。
大语言模型 (LLMs) 可以通过链式推理 (Chain of Thought, CoT) 解决多步推理任务,但即使是最先进的模型仍可能生成错误或虚假信息。为解决此问题,可以训练奖励模型区分优质和低质输出,并通过强化学习进一步优化模型。然而,最终模型的性能取决于奖励模型的质量。因此,研究如何有效训练可靠的奖励模型是关键。OpenAI o1团队工作者Ilya Sutskever等人合著的论文《Let’s Verify Step by Step》对比了两种奖励模型的训练方法,得到使用过程监督训练奖励模型更优的结论,被认为是o1技术的基石。
研究对象:结果监督(ORM)和过程监督(PRM),比较训练奖励模型的效果。
结果监督:关注模型最终输出是否正确性
过程监督:则更加注重推理过程的每一步是否正确
研究方法:通过GPT-4微调得到结果监督和过程监督模型,在MATH数据集上进行实验
结果监督直接判断结果正误,容易实现自动化,而过程监督可能出现结果正确但步骤错误的情况,难以自动化,需要收集人类反馈数据,团队为此构建了包含了80万个步级标签的过程监督800K数据集。
(人类反馈数据收集示例)
研究结果:过程监督在解决复杂问题时表现优于结果监督,在MATH数据集上的成功率达到78.2%,明显优于结果监督的72.4%。此外,研究团队在物理、化学等多个学科的测试集上进行实验,结果证明过程监督不仅提高了推理的解释性,还展现出强大的泛化能力,能够应对不同学科和适度的分布偏移问题。
(两种训练方法表现结果对比)
(泛化结果对比)
【GPT-o1开发团队答疑】
1.模型能力
Q: 为什么将模型命名为 o1?
A: o1 是 OpenAI 推理能力的一次重大突破,因此我们将计数器重置为 1,o代表OpenAI,推出了o1 系列。o1-preview 是即将推出的 o1 模型的预览版,而 o1-mini 并不是未来模型的预览版。o1-mini 更小更快,但没有明确的更新保证。
Q: o1 模型的推理能力如何?
A: o1 能够处理比 GPT-4o 更复杂和开放的任务。它生成长链的思维过程,可以帮助更好地处理开放性问题和复杂推理任务。这让它在处理高难度的哲学问题和科学问题时表现出色。但在写作能力方面,o1 模型没有超过 GPT-4o,甚至有些微落后。
Q: o1-preview 和 o1-mini 有什么区别?
A: o1-preview 是即将推出的 o1 模型的预览版,而 o1-mini 并不是未来模型的预览版。o1-mini 更小更快,专为特定任务场景而优化,尤其在 STEM 应用方面表现出色。o1-mini 可能会在未来更新,但没有明确的更新保证。
Q: 为什么 o1-mini 能在某些任务上比 o1-preview 表现得更好?
A: o1-mini 针对 STEM 应用的各个训练和数据阶段进行了优化,因此在一些特定任务上它表现优于 o1-preview。
Q: o1-mini 的推理链探索能力是否优于 o1-preview?
A: 是的,o1-mini 能够探索更多的推理链,尤其在 STEM 应用上表现出色。尽管体积较小,o1-mini 在某些任务中的推理能力甚至超越了 o1-preview。
Q: o1 模型是否支持多模态?
A: 是的,o1 模型内置了多模态功能,并在 MMMU 任务上达到了最先进的水平。未来的版本中,o1 的多模态能力将进一步扩展,包括图像识别等功能。
Q: o1 模型在任务处理上是否比 GPT-4o 更好?
A: 是的,o1 能够处理比 GPT-4o 更复杂和开放的任务,尤其是在推理和解决复杂问题时表现出色。随着模型的不断改进,它在处理复杂问题时的能力将进一步增强,任务分块的需求会越来越少。
2.产品运营
Q: o1 模型会向用户公开其链式思维(CoT)吗?
A: 我们没有计划向 API 或 ChatGPT 用户公开 CoT tokens。
Q: o1 模型的定价趋势如何?
A: 预计 o1 模型的价格将遵循每 1-2 年下降 10 倍的历史趋势。GPT-4o mini 的 token 成本自 text-davinci-003 以来已经下降了 99%。未来随着模型扩展,token 成本也会持续下降,进一步提高模型的可用性和用户使用体验。
Q: o1 模型的使用限制是否会逐步提高?
A: 是的,目前的使用限制较低,但我们计划逐步提高使用限制,逐步扩展到更多开发者和用户。我们会调整定价和访问策略,以便更多用户能够广泛使用 o1 的功能。
Q: 为什么只有 Tier 5 API 开发人员可以访问 o1?
A: 我们希望确保开发者能够尽早开始使用 o1 进行实验,虽然目前速率限制较低,但我们计划逐步扩大访问权限并增加速率。最初的发布阶段允许部分开发者尽早测试模型,以收集反馈和优化模型功能。
Q: T4 以下的用户什么时候可以使用 o1?
A: 我们计划在接下来的几周内扩展访问权限,提供给更多用户。
Q: o1-preview 和 o1-mini 的定价有差异吗?
A: o1-mini 比 o1-preview 更小更快,因此其未来的定价可能会更低,且有可能免费提供给用户。o1-preview 是完整 o1 模型的预览版,功能更强大,但相应的资源使用成本也较高。
3.未来发展
Q: 有没有办法强制延长思考时间?
A: 目前还没有此功能,但我们希望将来能提供用户控制思考时间的选项。
Q: o1 模型未来会支持哪些功能?
A: 我们计划逐步部署额外功能,包括代码解释器、函数调用和浏览等工具功能。未来版本还会增加对流式传输和推理进度的支持,这将使用户能够更好地理解模型的推理过程和工作原理。
Q: o1 模型未来会支持更大的输入上下文吗?
A: 是的,我们计划在未来版本中支持更大的输入上下文,虽然尚未披露具体尺寸。更大的上下文将允许模型处理更复杂和长时间的任务场景,进一步提高模型的实用性。
Q: o1 的微调功能什么时候上线?
A: 我们对此功能非常期待,已经在计划中,但目前还没有确切的上线时间表。这将使开发者能够根据具体应用场景对模型进行定制化优化。
Q: o1 模型的图像识别功能何时推出?
A: 我们正在努力开发图像识别功能,尽管目前尚未有具体的推出日期。这是我们多模态扩展计划中的重要部分,未来版本将逐步实现。
Q: 未来能否在推理过程中暂停并添加更多上下文?
A: 目前还不支持这种功能,但这是我们正在考虑的功能,未来的版本可能会提供这一选项。这将允许用户在推理过程中添加更多上下文信息,从而提高模型的灵活性和应用性。
4.模型技术
Q: o1 模型的推理过程如何?它是如何生成答案的?
A: o1 模型与之前的模型不同,它在给出最终答案前会生成一条很长的思维链(CoT)(CoT)。这一链式推理过程帮助它在复杂任务中进行深度推理,并生成精确答案。
Q: o1 模型的回答时间是否总是短于思维链(CoT)?
A: 通常情况下是的,生成答案所需时间较短,虽然思维链(CoT)的总结让它看起来较慢,但实际上生成答案的速度比预期快。
Q: CoT 的过程被隐去了,o1 模型的思维链(CoT)总结是否忠实再现了实际的推理过程?
A: 总结器不一定能够完全忠实于链式思维(CoT),虽然我们希望它尽量做到。我们不建议假定它是完全准确的,也不能假设 CoT 本身忠实于模型的实际推理过程。这是因为生成的思维链(CoT)是对模型推理的简化和压缩。
Q:思考步骤是个摘要。模型会生成CoT的总结——官网表述「在考虑了用户体验、竞争优势以及思维链(CoT)监控的可能性后,我们决定不向用户展示原始思维链(CoT)……在o1系列中,我们展示的是模型生成的思维链(CoT)摘要。」未来 API 能不能让用户控制「思考时间」或推理时的计算量?
A:我们希望将来能让用户对模型的思考时间有更多控制。
Q:有没有办法强制延长思考时间?
A:现在还没有这个选项,但我们希望将来能提供更多控制思考时间的功能。
Q:未来有没有可能在 o1 的 CoT 推理过程中暂停,添加更多上下文后再继续推理?
A:目前还不行。不过这是个好主意,我们会在未来的模型中探索这个可能性。
Q:打算在推理过程中进行函数调用吗?比如谷歌搜索、查询数据库、创建记忆?
A:目前还没有具体的时间表可以分享,但我们计划在推理时启用模型,支持函数调用和使用各种工具,比如代码执行和浏览功能。
Q: o1 模型的输入 token 如何计算?
A: o1 模型的输入 token 计算方式与 GPT-4o 相同,两者使用相同的分词器。这意味着两者在处理自然语言输入时有着类似的机制,可以确保一致性和兼容性。
Q: 蒸馏是否受基础模型大小的限制?
A: 蒸馏不会因为基础模型的大小受到限制。我们已经在逐步推进扩展能力,并没有发现基础模型大小对推理能力上限的限制。随着技术的进步,扩展和蒸馏模型的潜力会继续增加。
Q: o1 模型是否需要更多提示词?
A: 虽然技术上没有理由要求更多提示词,但经验表明,o1 模型在处理包含边界情况和推理风格提示的任务时表现得更好。提示词可以帮助模型更好地理解任务,并生成更精确的答案。
【奥特曼电台Q&A】
Q:和你交流的年轻人关心什么问题
A:我觉得人们对AI的初步反应总是很有趣。当ChatGPT发布时,人们最初有些恐慌,随后逐渐适应,并开始期待它能做得更快、更好。这种不断追求更高效率和智能的心态是我非常欣赏的人类特质。
从学生的角度看待这些变化也很有意思。虽然我个人对此感到激动,毕竟见证了这项技术的多年发展,但从初次接触者的角度看到他们的兴奋,还是让我感到非常愉快。
我和学生讨论了AI作为工具的角色,它能够帮助我们实现以前无法达到的目标,并显著提升工作效率。这是技术进步和人类发展的一部分,历史上我们一直在创造更先进的工具来推动创新和进步。我相信通过这次对话,他感到既安心又对未来充满了期待。
Q:现在有数百万人在使用ChatGPT,对于不熟悉ChatGPT的人,你会如何用最简单的话来描述它?
A:我只是众多参与者之一,绝不是最重要的。ChatGPT是无数AI研究人员多年辛勤工作的成果,也是几十年来许多人为此奠定基础的结果。它不仅仅是OpenAI的成就,而是整个技术领域的集体努力.要实现今天的ChatGPT,整个半导体行业必须发展起来,编程语言、操作系统、GPU等关键技术也都必须取得突破。所有这些结合在一起,才使我们能够开发出一个看起来能理解人类语言、图像等多种信息的计算机程序,并能为用户完成各种任务。
无论你是想要一个沙拉食谱,还是将文本从西班牙语翻译成英语,或者帮助你学习新技能、解决医疗问题,甚至是调试计算机程序,ChatGPT都能作为一个通用助手,帮助用户完成这些任务。
Q:你所谈到的,关于医疗问题和计算机程序的最后两点,我认为非常符合昨天刚刚发布的新版本ChatGPT。这个版本能够通过数学和科学进行推理,以至于让学生们都感到有点害怕。你能更具体地描述一下这个最新版本能做到什么,而其他版本没有或者可能做不到的吗?
A:最大突破是o1模型能够在长时间内推理出复杂难题,尤其是在科学和工程问题上。它在一些非常困难的数学和编程比赛中表现出色,甚至能够与全国顶尖学生或世界级的编程高手竞争。这虽然很酷,但我们更兴奋的是它的实际应用潜力,比如帮助研究人员更快找到治愈疾病的方法,或者发现新材料来加速清洁能源的开发。o1模型发布仅24小时,我们还在等待看到它在世界范围内的长期反应以及实际应用,但目前的反响非常令人振奋。
Q:这种ChatGPT是专门针对科学和数学的吗?
A:就我个人而言,我认为o1模型将带来很多美好的变化。首先,我非常期待它能够改变计算机编程的本质,使程序员能够更高效、更轻松地完成以往极为复杂的任务。我相信这个新工具有可能将程序员的生产力提高十倍,进而激发出更多的创造力,带来前所未有的创新。另一个让我兴奋的领域是科学发现。从小我就深信科学对世界和经济发展的推动作用。我们一直期待着某一天AI能够加速科学进步,而现在,我觉得我们离这一目标非常接近了,这让我非常期待未来的发展。
Q:你对那些担心AI会抢走他们工作的人说了什么?
A:每次技术革命,人们都会担心工作被取代,这种担忧是合理的,因为确实有一些工作会消失,但我们总是能够找到新的工作。我认为,人类对新事物的需求、渴望对他人有用、表达创造力、为社会做出贡献,这些基本的驱动力不会消失。
我不认为我们会失去工作,虽然社会对于希望人们多工作还是少工作这个问题一直有些困惑。比如,“每周只工作八小时”的承诺从未真正实现,我也不认为它会发生。但未来的工作将与现在截然不同。我相信,如果我们快进到100年后,我们可能会看到未来的工作更像是爱好或艺术,而不是单纯为生计而劳作。几百年前的人可能会觉得我们现在的工作不是“真正的工作”,因为他们所理解的工作和我们现在的差异很大。
工作的本质在不断演变,但我坚信,人类的基本驱动力——创造、贡献和成就感——不会改变。
Q:AI的用途有好有坏,你能举一个积极应用的好例子吗?
A:教育领域是一个很好的例子,尤其是今天早上我在母校布鲁斯学校看到的情况。像可汗学院这样的早期先行者已经使用AI来帮助学生更好地学习,这是非常美妙的体验。另一个例子是医疗保健领域,ColorHealth正在利用我们的技术帮助人们制定个性化的癌症治疗计划,效果显著。我相信未来我们会看到更多类似的应用。
此外,虽然我们谈到了程序员,我还是想再次提到我们刚推出的o1模型。我认为我们很快就会看到程序员使用这些工具的能力发生巨大变化,这将对每个人产生非常积极的影响。
Q:关于教育领域的积极发展,有些学生使用ChatGPT写论文,可能没有真正进行独立和批判性思维。对此你怎么看?
A:我认为教授写作的重要原因并不是因为我们需要学生产出大量文字,虽然写作本身有很多价值。但我认为,写作是一种学习如何思考的极好方式,也是一项非常有用的技能。我自己也经常通过写作来理清思路,虽然完成后可能会删除文件,但这个过程对思考非常有帮助。
我们需要找到有效的方法来继续教授人们这种思维方式,可能写作依然是最好的方式。也许未来我们会发现更好的方法,确保学生为了学习思考而进行写作。当然,学校写作还有很多其他目的,其中一些可能并没有为每个人提供太多价值,但我们需要确保核心技能得以保留。
Q:人工智能应该有哪些保障措施来验证内容的真实性?
A:有很多方法可以帮助验证内容的真实性。例如,使用水印技术可以为生成的内容添加标记,工具开发者也可以为自己生成的内容提供验证机制。不过,我认为我们即将进入一个世界,在这个世界中,来自那些选择不执行验证措施的服务的生成内容会变得普遍。我的希望是,和Photoshop刚出现时一样,人们会快速适应,并且学会不轻信互联网上的内容。我们需要培养一种复杂的怀疑态度,对所看到的内容保持谨慎。
我相信人们能够快速学习并适应这些变化,虽然这是我们需要面对的重要转变,但我认为我们会建立起某种“免疫系统”来应对这种环境。
Q:8月,OpenAI与联邦机构美国AI安全研究所达成协议,将向该机构预先发布未来的AI模型。这是新ChatGPT模型的预发布吗?
A:是的,我们与他们合作,测试了一个预发布版本,体验非常好。这对我们非常有帮助。
Q:到目前为止,你能告诉我一些关于新模型发布的情况吗?
A:过去24小时我一直在旅行,昨天我在华盛顿特区和密歇根,今天在圣路易斯,所以没有像我希望的那样一直紧密跟进发布进展。不过,根据我们内部的讨论以及看到的在线反馈,人们似乎非常喜欢这个新模型。
Q:关于人工智能的监管,政府应该承担什么责任?
A:就像任何新技术一样,AI也需要一些“交通规则”,特别是随着系统变得越来越强大时,安全验证变得至关重要。就像我乘飞机时,我不会亲自检查飞机的工程设计,而是依赖政府机构执行的流程,这让我能够放心地认为飞机是安全的。虽然有些人认为监管会拖慢进展,确实在某些情况下会让事情变得更慢且麻烦,但它带来了必要的安全保障。我认为,随着强大的AI系统被广泛部署,我们需要类似的安全机制来确保它们的可靠性和安全性。
Q:AI的大型数据中心需要大量能源、空调和水来保持冷却。你是否担心AI的能源需求和对气候的影响?
A:是的,广泛来说,我确实担心。我认为世界需要远比我们现在拥有的更多能源,AI只是其中的一个原因,尽管比例较小。如果我们回顾能源的历史,每当能源成本急剧下降时,生活质量就会显著提高。如果能为世界上最贫困的25%人口减少一半的能源成本,将会产生巨大的影响。如果能将其降低10倍,效果会更加惊人。
未来的两个基本资源将是智能和能源。我们需要智慧来完成智力工作,也需要能源来让这些工作在现实中实现,包括运行AI系统。因此,我们需要更多清洁、安全、可靠的能源,尤其是为AI的运行提供支持。我相信在核裂变、核聚变以及太阳能和储能方面,我们已经看到了一些有趣的进展,我相信我们最终会解决这些问题。我们越早解决,效果越好。
Q:你在员工身上最看重什么品质?
A:我们在员工身上寻找创新精神、创造力、努力工作的态度,以及长期专注于问题的能力。尤其是在我们的研究领域,这种品质非常有价值。当然,智慧、合作能力等基本素质也很重要。我还认为,乐观的态度在我们的工作中是非常有帮助的,尤其是对于那些能够在任何背景下完成任务的人。我觉得这往往是未来成功的一个好指标。我们也希望找到那些相信AGI(通用人工智能)使命,并致力于确保其安全和广泛应用的人。
Q:有听众提到,科技行业通常充满有毒的工作环境,但在OpenAI员工中,95%表示如果你不复职,他们将辞职。是什么让OpenAI的工作文化如此不同,以至于整个公司几乎会为你辞职?
A:我不认为这是对我个人的支持,而是对OpenAI使命的支持。我们所有人都非常关心我们在做的事情,大家都意识到这项工作具有高风险,但我们也非常致力于它,并且为能够在帮助推动这项新技术走向世界的过程中发挥作用而感到荣幸。能够得到团队的支持当然让我非常感动,但这更多是因为大家对使命的投入,而不是因为我个人。这四天的经历确实非常疯狂,但我相信团队的忠诚更多是为了完成我们共同的目标。
Q:OpenAI的使命是什么?最终目标是什么?
A:我们相信AGI(通用人工智能)将是我们有生之年最重要的技术革命之一。我们的目标是确保这项技术能够让所有人受益,并且它的推出是安全、负责任且令人兴奋的。
如今,世界上有很多问题让人感到悲观或冷漠,但AGI给了我们一线希望。像昨天发布的新模型,看到人们对它的反应如此积极,这让我觉得我们正在朝着正确的方向迈进。这不仅仅是技术突破,而是为人类带来真正价值的变革。
Q:你在五月份签署了“捐赠誓言”,承诺捐出超过一半的财富。促使你做出这个决定的动机是什么?
A:我认为这很重要。就我个人而言,我认为支持科学进步是慈善事业的一个关键领域,我希望在这一方面做更多的贡献。我坚信,帮助推动社会进步是非常有意义的事情。而且,我现在有一些内部知识,知道如何利用AI工具以非常有效的方式实现这一目标,所以我对此感到非常兴奋。
Q:你谈到了知识的深度,AI的发展方式如何反映或不同于人类知识的增长和深化?
A:这是个好问题。老实说,AI和人类的学习方式是不同的。比如,人类可能只需要听一次就能理解某个概念,而AI可能需要成百上千倍的训练数据来掌握相同的东西。AI对训练数据的需求与人类完全不同,这使得它们的学习方式在某些方面非常有趣。虽然两者之间有一些启发,但它们的学习过程本质上是非常不同的。