智谱给OpenClaw装上了眼睛,AI终于能看懂屏幕了 早上刷手机,看到智谱发了条消息:首个原生多模态Coding基座模型GLM-5V-Turbo正式发布。最大亮点是深度融合视觉与编程能力,能原生处理文本、图片、视频,还能编程、规划、操作执行。 最关键的一句:让OpenClaw龙虾具备了真正的视觉能力,能看懂屏幕上的信息。 OpenClaw这名字,最近出镜率挺高。前两天国家知识产权局还发风险提示,说用它写专利可能不靠谱。现在智谱直接给它装上了眼睛——能看懂屏幕,这就有意思了。 以前的AI编程工具,你给文字描述,它帮你写代码。但遇到界面操作、图形识别这种任务,就瞎了。你让它帮你点个按钮、识别个图片里的文字,它只能给你写代码,自己没法看。现在GLM-5V-Turbo把视觉和编程打通了,AI可以自己看图、看视频、看屏幕,然后根据看到的内容去操作。 这就像给盲人配了导盲犬。以前AI只能听你指挥,现在它能自己看路。 OpenClaw这名字本身就有梗。之前叫Clawdbot,因为和Anthropic的Claude名字太像,被投诉后改成了Moltbot,后来又改成OpenClaw。名字换来换去,但干的活一直在升级。这次智谱给它装上视觉能力,相当于从“只会写代码”进化到“能看懂屏幕写代码”。 这玩意能干啥?举个例子,你给它一个APP界面截图,说“把这个按钮的颜色改成红色”,它自己看懂界面,定位到那个按钮,然后生成修改代码。再比如,你录一段操作视频,说“以后这个操作自动执行”,它能看懂你点了哪里、输入了什么,然后帮你写自动化脚本。对程序员来说,省的不是几行代码,是来回切换、反复调试的碎片时间。 对普通人来说,这意味着未来的AI助手真的能帮你“做事”了。你说“帮我在淘宝上搜一下XX”,它不是给你一段代码让你自己跑,而是自己打开网页、看图、搜关键词、把结果摆在你面前。能看懂屏幕,是AI从聊天走向干活的关键一步。 智谱把这个模型开放到MaaS平台,意思是开发者可以直接调用了。接下来几个月,应该会看到一堆能看懂屏幕、自动操作的AI应用冒出来。 这世界上的事,有时候挺巧的。前两天还在说AI写专利有风险,今天AI就能看懂屏幕了。技术跑得比我们想象得快,但日子该怎么过还怎么过。
