当GLM-4.5长了双眼睛，可以用来做什么？

多模态推理是迈向通用人工智能的关键一步，而视觉-语言模型正是实现它的核心基础。智谱刚发布的GLM-4.5V就是这样一款厉害的多模态大模型，它基于文本基座模型GLM-4.5-Air打造，延续了之前GLM-4.1V-Thinking的技术路线。

视觉推理能力可圈可点：开启grounding模式能精准定位目标，比如在浪浪山小妖怪的图里，能找出打架最厉害的角色；面对校招测评里的纸盒折叠题，它也能通过分析各面图案和相邻关系得出正确答案；就连抽象的梗图，它也能认出神似的人物，理解能力快赶上人类了。

在地点识别方面，它更是一把好手，能精确到具体景点。在“图寻游戏”中，表现也超棒，参赛16小时就击败了99%的人类玩家，7天更是攀升至全球第66名。

它还能理解视频，比如分析宠物视频中宠物的行为是否正常，帮助主人判断宠物状态。

从架构看，它由视觉编码器、MLP适配器和语言解码器构成，支持64K多模态长上下文，在视频和图像处理上有不少亮点。训练策略采用三阶段进阶模式，让模型在多个方面都得到了优化。

去z.ai就能玩起来啦~

DC娱乐网

当GLM-4.5长了双眼睛，可以用来做什么？

热门分类