转:【国金计算机&科技】谷歌Gemini 3.1 Pro 重夺大模型王座,推理能力翻倍不加价 万变中寻找不变
【核心推理能力与幻觉控制跨越式升级,综合智能指数重登王座】相比前代Gemini 3.0 pro ,在衡量抽象图形逻辑能力的 ARC-AGI-2 中,得分从 31.1% 翻倍狂飙至 77.1%;在模拟投行/法律高阶职场的 APEX-Agents 实操测试中,成功率由 18.4% 跃升至 33.5%;在考察自主全网深挖能力的 BrowseComp 中,得分从 59.2%提高至更以 85.9% 。在综合智能指数Artificial Analysis 的10项核心评估中拿下 6 项第一,强势反超 Claude Opus 4.6 与 GPT-5.2,其中在测试模型是否“不懂装懂”的AA-Omniscience幻觉率上比前代大幅下降38个百分点。
【创新引入“三级思考”模式,算力旋钮降低工程成本】模型创新性地引入“算力旋钮”(低、中、高),一键整合 Deep Think 深度推理状态。开发者无需再为不同难度任务维护多套模型路由,一个模型即可按需分配思考时间,极大降低了系统维护与调用成本。
【“创意编程”能力进阶,打破复杂交互与设计壁垒】 据腾讯科技,新模型3D 交互质变:完美解决了 3D 动画中复杂的旋转顺序问题,并能生成带背景音乐的 3D 鸟群模拟。复杂数据可视化:模型接入实时遥测数据流,构建出空间站轨迹的交互式看板;构建SVG动画:能根据小说文学意境,推理并生成对应风格的 SVG,谷歌 CEO Sundar Pichai 强调新模型正致力于“将创意项目变为现实”。
【性能跃迁维持原价,低成本助力规模化落地】在推理能力提升的同时维持了每百万 tokens输入 $2 / 输出 $12的定价。Artificial Analysis测算跑完全套智能指数测试集的花费不到 Claude Opus 4.6 的一半,为复杂 Agent 任务扫清了经济障碍。
万变中寻找不变,近期模型迭代速度超预期, AI 巨头竞赛已进入白热化。正如我们年度策略《两仪生四象,超级时代》中所强调,2026年是模型加速迭代与应用落地的爆发年。随着高智商且具性价比的模型普及,AI 已从简单的问答助手转向真正的生产力伙伴,投资路径继续参考我们年度策略
国金计算机&科技 李可夫 / 刘琳琳 / 刘高畅