
当一道数学难题出现在眼前,人类顶尖选手得苦思冥想好几个小时,可是AI却能在几分钟内给出差不多完美的答案这不是科幻,而是OpenAIo3模型正在发生的现实,更让人觉得不安的是,它在博士级科学问题上的准确率达到了87.7%,比人类专家的平均水平还要高,我们不得不问,当机器的思维深度开始超过那些寒窗苦读二十年的学者时, 人类一直觉得骄傲的智慧堡垒还能剩下多少,
这不是简单的技术更新换代,而是一场认知权力在悄悄转移
o3的核心秘密在于思维链机制

这差不多和人类顶尖0.1%的水平相当。斯坦福HAI研究院称, 这种推理能力意味着AI从「模式匹配”到逻辑构建有了质的改变,真正让人吃惊的是,o3正在让」知识"和创造的界限变得不清楚起来
这种震动已经在药物研发领域被发现到
传统上,科学家得跨学科合作好几个月才能设计出来的实验方案, o3可以在一次对话里整合物理学、生物学和化学知识,提出全新的分子结构假设。
EpochAI的测试显示, 在FrontierMath前沿数学难题上,o3解决了25.2%的问题,而之前最强的模型还不到2%。
这也就意味着它不但能运用已知的东西,还在朝着触碰未知的边缘前进
对于普通读者来讲,这种变革或许初看有点远,但实际上就在眼前
设想你是一位给孩子辅导数学的家长,以前,碰到复杂的几何证明时,只能翻书或者找家教来帮忙,而现在, o3不但可以给出解题步骤,还可以模拟孩子的认知误区,而且通过可视化的推理来展现思维过程
在GPQADiamond博士级科学问答里, o3 87.7%的准确率说明它已经能够帮助理解就连硕士毕业生都觉得困难的专业文献。

然而,光环之下,阴影也存在,o3的博士水平有着明显的领域偏向在有标准答案的数学和编程题上,它表现特别出色, 可在需要价值判断的尴尬境地前,却不说话。
更关键的是,OpenAI被曝光资助了FrontierMath基准测试的开发, 由此就引起了关于既当裁判又当运动员的诚信争议。
TechCrunch透露,公开发布的o3版本在某些测试中的分数(大概10%)远远低于内部演示版本(25%), 这样的差距提醒我们,benchmarks(基准测试)也有可能是精心安排的舞台剧
成本是另一道隐蔽的门槛
每百万输出token, o3-pro的API定价是80美元,处理一次复杂科研查询可能要花几十美元。
这种智力的货币化,难道不会让知识获取的不公平更严重吗
当精英机构能够承担得起AI博士助手,而普通学校只能使用基础模型的时候, 教育鸿沟不但有可能没被消除,反而会被技术弄得更固定了。

当机器可以解数学题、编写代码、设计实验的时候, 人类教育的核心价值是否得从知识存储变为提问能力和价值选择
未来三到5年,我们大概就会见到人机合作变成科研的基本配置AI负责提出假定和验证,人类负责判断意义和方向,这并非取代, 反而是演变。
但演变是有成本的, 那些只善于标准答案类型的人,会最先感受到寒意来临当智慧的垄断被打破,我们准备好了没
声明:本文内容超过90%为原创,少部分借助AI进行辅助,但所有内容均经过本人严格审核与核对。所用图片均为真实拍摄或AI生成的原创素材。全文旨在传递积极健康的价值观,不含任何低俗或不良导向。特此说明,敬请读者知悉。