DC娱乐网

唐杰征集GLM 5.3需求,网友声音出奇一致

清华教授兼智谱AI创始人抛出一个“头脑风暴”:“下个版本GLM,必须新增哪些功能?”。

网友们疯狂留言,评论整齐到离谱:视觉、视觉、还是视觉!

为什么大家都紧盯着“视觉”,而不是别的方向?

目前,智谱的GLM系列早已在全球开源界站稳脚跟。最新的GLM-5.2横扫AI编程能力榜单,在开源侧排名全球第二,仅次于顶级模型Fable-5。

但模型太聪明,却看不了图。

对标对手Fable-5那种原生多模态的能力,用户们不动心是不可能的。

有人可能会问:这么厉害的团队,为什么不直接把视觉加进去?

其实,智谱在视觉多模态上的布局并不落后,4月还发布过一款GLM-5V-Turbo,能同时处理视觉和代码问题。

然而,唐杰本人对于旗舰模型的选择却有着更深层次的考虑。

在他看来,视觉或许能让模型更“好用”,但要推动AI智能的突破,核心还得靠文本领域的复杂逻辑推理能力。这也是为什么,智谱始终在多模态与纯文本间保持谨慎权衡。

可话说回来,用户和科学家的关注点的确不同。

开发者们日常更关心的是,贴张图模型能看懂,截个屏模型能理解,这些细节直接影响使用体验。

而在市场竞争层面,国内外像Qwen3.5、Gemini 3等对手也都将视觉/文本/音频/视频整合到一套模型中,发展方向明确且迅猛。

所以,唐杰这次公开征求意见,其实也是释放一个重要信号:智谱可能会对GLM下一步的多模态强化做出回应。对于一直期待“万能AI”的用户来说,或许GLM新版的夺目突破不会太远。