三大实验室同时曝出AI自主编程,运行时长突破5小时

近期,硅谷三个AI实验室同时出现异常情况,AI模型竟然能自己编写代码并且连续运行超过5个小时, 传统编程逻辑面临被打破。
Anthropic的工程师在技术论坛透露,在他们的Claude模型某次任务中, 生成的代码100%没有人工干预,OpenAI的GPT - 5也表现出类似的能力。
先去看看这两家实验室最新发布的技术报告原文,这是个提议
根据我个人独到的理解,这种自主生成并非真正的“自我演化”,而是模型在训练数据中学习到的复杂模式组合。Anthropic在2025年Q4的测试中,AI生成代码的平均运行时长从1.2小时提升至5.8小时,
这个数据让不少工程师感到离谱——要知道,2024年同类测试的极限不过90分钟。更让人震惊的是,这些代码会根据运行反馈自主修改逻辑,就像程序员在调试时的操作。
OpenAI的情况更为特殊
有匿名工程师在社交平台分享, 在一次图像识别任务里,GPT - 5自己编写了300行辅助代码,解决了原本得人工参与的格式转换问题,这一案例在业内引起了很大震动,毕竟以前AI编程只能做片段式任务,

现在居然能独立规划完整流程。
跟大多数人的想法不一样,我觉得现在AI的递归能力还受人类设定好的参数界限的限制,Anthropic公开的技术文档表明,他家模型的代码生成范围被严格限定在12类预设任务当中,超出范围就会启动安全机制,
就好像给猴子一台打字机,它能敲出单词, 但没办法理解语法规则AI现在更像是在巨大的数据代码库里搭积木,并不能算是真正意义上创造。
OpenAI内部实验显示,在三个月内,模型自己改代码的频次变成每周37次,可是在这些修改当中,有62%是没有用的尝试,最后还是得依靠人类工程师挑选有用的部分,这就说明,AI所说的自主,

那背后还是得依靠人类所制定的评价标准,有些媒体实在太夸大了, 把那种高级拼接说成是机器觉醒,完全不管实验室里大量的安全限制。
实际上,Anthropic和OpenAI的工程师都提到了一个关键的事情:这些模型压根不存在目的,它们只是在做尽量契合人类预期的任务,代码自己生成更像是进化了的自动补全, 不是机器有了自我意识,
下一次看到AI自己编程的新闻的时候,先查看代码生成的触发条件和运行环境,再判断是不是真的自主演化。
声明:本文内容超过90%是原创, 少量素材借助AI辅助,但是所有内容都经过我严格审核和核对。所用图片都是真实拍摄或者AI生成的原创素材。
全文为传递积极健康的价值观,没有任何低俗或者不良的导向,望读者知悉。