
Trae 最近让我有点意外。
工作日下午偶尔用了几次 Trae,模型还选的是doubao seed 2.0 code,竟然没排队。过去我最烦它的一个点,就是工作日下午经常排队。
但我不想乱猜机制。优速通依旧是 999,说明排队这件事肯定还存在。只能说,这几次体验,让我对 Trae 又多了一点好感。
然后,这点好感很快又被一次内置浏览器任务消耗掉了。
不排队,只是入口体验我们团队在全面切到 Codex 之前,用了 8 个月 Trae。
所以我对 Trae 不是没有感情。现在团队已经全面切到 Codex,但依旧会关注 Trae 后面能不能雄起。
但生产链路不会因为你有感情,就降低验收标准。
这次我想做一件很具体的事:把我们工作流里的测试用例,也自动创建到云效里。
Codex 当时卡了比较久,我就把任务迁到 Trae 上,想看看它能不能解决。Trae 给了一个方向:让我登录浏览器,然后它来看看怎么解决创建测试用例的问题。
这个方向没错。AI Agent 想干真实工作,就不能一直停留在聊天框里。它要进真实系统,看到页面,理解项目,找到用例库,识别正确的目录 ID。
内置浏览器的价值就在这里:不是让 AI 看网页,而是让 AI 进入工作现场。
真正伤信任的,是异常打断于是我同时打开了 Trae 的浏览器,也打开了 Codex 的浏览器。
同样是云效网页,同样是创建测试用例,同样是希望 AI 把流程跑通。
Trae 最后的结果是:
检测到模型循环,请求已被中断。请重试或新建任务。

这句话,我太熟悉了。
过去我最反感 Trae 的地方,不只是慢,也不只是排队,而是任务跑到一半突然异常打断。
对聊天工具来说,这可能只是一次失败;但对准备进入团队工作流的 Agent 来说,这会直接消耗信任。因为你一旦中断,前面所有上下文都要重新组织:页面、登录态、进度、缺口、已经试过的判断,全都要人重新接回来。
AI 工具最贵的失败,不是回答错了,而是在真实任务里把上下文弄断了。
Codex 赢在把活闭环了同样的任务,Codex 跑了 11 分钟。
它不是只告诉我“可以通过 API 创建测试用例”,也不是只给一段看起来正确的代码。它在浏览器里确认了云效页面、实际 TestHub 路径,也确认了 FQJC 对应的是用例库,不是某个测试用例 ID。
最后,它创建了测试用例,并在页面里验证了结果。
真正让我在意的是这一点:
AI 说完成不算,业务系统里真的出现,才算完成。
真实工作里,最难的部分往往不是生成代码,而是把代码、页面、权限、目录、业务对象和结果验证串起来。


这才是内置浏览器真正要解决的问题:不是“打开网页”,而是“把网页里的真实上下文带回任务链路”。
浏览器能力,要看四件事如果只是能打开网页、能点按钮、能看 DOM,那还不够。对团队生产来说,浏览器能力至少要过四道门:拿到真实上下文、持续执行、处理缺口、完成验证。
这四件事连起来,才是一个 AI Agent 从“会回答”走向“能干活”的门槛。
内置浏览器真正的分水岭,不是能不能看网页,而是能不能把真实系统里的活干到可验收。
入口体验,不能替代主链路信任这篇不是想说 Trae 完了,也不是想说 Codex 永远更强。

我反而挺希望 Trae 后面能给力些。我们用了 8 个月,不是没感情。最近偶尔没排队,我也确实有一点好感。
但工具进入团队主链路以后,感情不再是主要变量。
主链路只认三件事:能不能稳定拿到上下文,能不能持续执行不中断,能不能最后给出可验证结果。
Trae 这次给了一个对的方向:登录浏览器,让 AI 进入真实页面。但它没把这件事跑完。
Codex 这次跑得慢,11 分钟不算短,但它最后把结果做出来了。
对我来说,这就是差别。不排队,会提升入口体验;异常打断,会消耗主链路信任。
能开始,不等于能交付;能打开浏览器,不等于能真正干活。
以后我再看 AI 编程工具,可能会越来越少问“它用了什么模型”,也越来越少问“它排不排队”。
我更关心的是:当它进入真实业务系统,遇到权限、目录、页面、接口、返回值和验证时,它能不能撑住。
撑不住,模型再聪明,也只能当辅助。撑得住,它才有资格进入团队工作流。
说明:本文基于本人真实使用经历与团队工作流观察整理,AI 参与文字梳理、润色与排版。
你现在用 AI 编程工具时,更怕它排队,还是更怕它跑到一半异常中断?