视觉推理能力可圈可点:开启grounding模式能精准定位目标,比如在浪浪山小妖怪的图里,能找出打架最厉害的角色;面对校招测评里的纸盒折叠题,它也能通过分析各面图案和相邻关系得出正确答案;就连抽象的梗图,它也能认出神似的人物,理解能力快赶上人类了。
在地点识别方面,它更是一把好手,能精确到具体景点。在“图寻游戏”中,表现也超棒,参赛16小时就击败了99%的人类玩家,7天更是攀升至全球第66名。
它还能理解视频,比如分析宠物视频中宠物的行为是否正常,帮助主人判断宠物状态。
从架构看,它由视觉编码器、MLP适配器和语言解码器构成,支持64K多模态长上下文,在视频和图像处理上有不少亮点。训练策略采用三阶段进阶模式,让模型在多个方面都得到了优化。
去z.ai就能玩起来啦~






