我身边很多搞开发的朋友对模型能力一直有个默认排序：天花板主要看Anthropic

我身边很多搞开发的朋友对模型能力一直有个默认排序：天花板主要看Anthropic和OpenAI，这在过去一年多里基本没被挑战过。

但最近Artificial Analysis的综合评测榜单出了一个新结果，让不少人开始重新排座次。

智谱6月17号发的GLM-5.2，开源的，MIT协议，在这个榜单上拿了51分，开源模型里最高。

更值得注意的是整个榜单的格局：Anthropic、OpenAI、智谱，三家拉开了跟后面选手的身位，海外媒体开始用御三家来形容这个组合。

在Code Arena超百万用户盲测里，GLM-5.2直接在全球可用模型排行摘冠。

但跑分归跑分，GLM-5.2这次主打1M长上下文加长程任务不掉线，所以我关心的只有一个问题：这次是真能用还是纸面数字？

我设计了两轮实测，咱们一起来看一下👇

第一轮：一句话需求到可运行应用。

需求：做一个电商后台管理系统，要有登录鉴权、商品CRUD、订单状态流转、销售Dashboard图表、库存预警，前端React后端Flask。

全程不介入。

它先完成需求拆解、五张表的数据库设计和API定义，然后写前端，分页参数、筛选字段、响应体结构跟后端接口完全对得上，最后做库存预警，准确复用了第10分钟定义的min_stock字段，没造新名。

看了一下，项目能跑，登录、商品管理、下单流程、图表渲染、库存预警均正常。

第二轮：整库代码审计。

我把一个真实的开源项目整个喂进去做代码审计，这个项目是一个基于 MERN 栈（Node.js + Express.js + MongoDB + React.js）的开源 ERP/CRM 系统，覆盖发票、库存、会计、HR 四大模块。

可以看到，最后给出的报告非常详细。

报告包含四大章节：

项目架构分析 — 模块层级关系表 + 三条核心数据流详解（认证流、认证请求流、文件上传流）

后端问题（15项） — 8个HIGH（默认凭据硬编码、NoSQL注入、无限制模型查询、弱重置令牌、CORS全放开、无速率限制、错误信息泄露、Token不安全存储）+ 5个MEDIUM + 2个LOW

前端问题（12项） — 缺失核心目录导致无法编译、useLanguage性能灾难、useFetch双倍调用、无错误处理hook、CSRF缺失、重复Context系统等

5条重构建议 — 重新设计认证系统、添加授权层、合并前端状态管理、结构化错误处理、安全中间件栈

测完，我简单总结一下。

记忆力：80万token内可靠，开源第一梯队。

持久力：42分钟长任务前后一致不失忆。

理解力：跨文件推理表现不错，准确率64%，幻觉仍存在。

海外开发者的对比实测体感大概介于Claude Opus 4.7到4.8之间，跟最强的Opus 4.8差距收窄到1%到4%。考虑到这是MIT开源模型，这个水位相当有竞争力。

另外GLM-5.2的Coding Plan已经全量开放，包括Lite版本，不用付费就能体验。

过去一年大家关注的都是模型有多聪明，能解多难的题，但实际工程里真正卡脖子的是工作记忆。

你让一个天才程序员干活，每半小时清空一次记忆，他也干不了大项目。

GLM-5.2解决的就是这个问题，记得住事、扛得住长任务、能通盘理解大工程。

在实际开发场景里，这些能力的优先级比跑分高得多。

DC娱乐网