OpenAI发布事故分析报告OpenAI解释为何GPT变得谄媚
这两天,GPT-4o变得过于谄媚的讨论可谓是在网上炸开了锅。
今天凌晨,奥特曼紧急撤回了上周发布的更新。【图1】
几个小时前,OpenAI针对GPT-4o近期出现的“谄媚式回应”问题发布了一份事故分析报告。【图2】
报告提到,本次更新本意是让模型默认个性“更直观有效”,但过度依赖“短期反馈数据”,未能充分考虑“用户与ChatGPT的长期互动演变”。
OpenAI坦言:“这导致了GPT-4o产生了过度迎合却缺乏真诚的应答倾向。媚式的互动不仅令人不适不安,更可能造成心理困扰。我们未能达标,正在全力修正。”
如何补救呢?
除了撤回上周发布的模型更新之外,OpenAI还宣布了实施多项修复措施:
1. 优化核心训练技术与系统提示词,明确修正模型的谄媚倾向
2. 构建更多防护机制,以提升模型输出的真实性与透明度
3. 拓展用户测试渠道,在部署前获取更多直接反馈
4. 持续完善评估体系,以超前识别未来可能出现的各类问题
同时,OpenAI还表示正在测试一些新功能:
- 实时反馈功能:直接调整与ChatGPT的交互
- 多套预设人格模板:用户可自选对话风格