智谱给OpenClaw装上了眼睛，AI终于能看懂屏幕了早上刷手机，看到智谱发

智谱给OpenClaw装上了眼睛，AI终于能看懂屏幕了

早上刷手机，看到智谱发了条消息：首个原生多模态Coding基座模型GLM-5V-Turbo正式发布。最大亮点是深度融合视觉与编程能力，能原生处理文本、图片、视频，还能编程、规划、操作执行。

最关键的一句：让OpenClaw龙虾具备了真正的视觉能力，能看懂屏幕上的信息。

OpenClaw这名字，最近出镜率挺高。前两天国家知识产权局还发风险提示，说用它写专利可能不靠谱。现在智谱直接给它装上了眼睛——能看懂屏幕，这就有意思了。

以前的AI编程工具，你给文字描述，它帮你写代码。但遇到界面操作、图形识别这种任务，就瞎了。你让它帮你点个按钮、识别个图片里的文字，它只能给你写代码，自己没法看。现在GLM-5V-Turbo把视觉和编程打通了，AI可以自己看图、看视频、看屏幕，然后根据看到的内容去操作。

这就像给盲人配了导盲犬。以前AI只能听你指挥，现在它能自己看路。

OpenClaw这名字本身就有梗。之前叫Clawdbot，因为和Anthropic的Claude名字太像，被投诉后改成了Moltbot，后来又改成OpenClaw。名字换来换去，但干的活一直在升级。这次智谱给它装上视觉能力，相当于从“只会写代码”进化到“能看懂屏幕写代码”。

这玩意能干啥？举个例子，你给它一个APP界面截图，说“把这个按钮的颜色改成红色”，它自己看懂界面，定位到那个按钮，然后生成修改代码。再比如，你录一段操作视频，说“以后这个操作自动执行”，它能看懂你点了哪里、输入了什么，然后帮你写自动化脚本。对程序员来说，省的不是几行代码，是来回切换、反复调试的碎片时间。

对普通人来说，这意味着未来的AI助手真的能帮你“做事”了。你说“帮我在淘宝上搜一下XX”，它不是给你一段代码让你自己跑，而是自己打开网页、看图、搜关键词、把结果摆在你面前。能看懂屏幕，是AI从聊天走向干活的关键一步。

智谱把这个模型开放到MaaS平台，意思是开发者可以直接调用了。接下来几个月，应该会看到一堆能看懂屏幕、自动操作的AI应用冒出来。

这世界上的事，有时候挺巧的。前两天还在说AI写专利有风险，今天AI就能看懂屏幕了。技术跑得比我们想象得快，但日子该怎么过还怎么过。

DC娱乐网

智谱给OpenClaw装上了眼睛，AI终于能看懂屏幕了早上刷手机，看到智谱发

热门分类

智谱给OpenClaw装上了眼睛，AI终于能看懂屏幕了 早上刷手机，看到智谱发

热门分类

智谱给OpenClaw装上了眼睛，AI终于能看懂屏幕了早上刷手机，看到智谱发