DC娱乐网

百度开源ERNIE-4.5-VL-28B-A3B-Thinking,更强的多模态理解与推理

11 月 11 日,百度将文心多模态“深度思考”版 ERNIE-4.5-VL-28B-A3B-Thinking正式开源。

11 月 11 日,百度将文心多模态“深度思考”版 ERNIE-4.5-VL-28B-A3B-Thinking正式开源。别看它只激活 3B 参数,性能已能对标业界顶尖大模型。

新模型在 ERNIE-4.5-VL-28B-A3B 的基础上升级了视觉–语言联合推理,文档、图表一扫就懂,理科推导、文科归纳、通用视觉问答全线提升。更把空间定位与工具调用融进“图像思考”模式,让多模态交互不再只是“看得懂”,而是“想得深、做得出”。

ERNIE-4.5-VL-28B-A3B-Thinking 现已基于 Apache 2.0 协议全面开放,商用零门槛。预训练权重、推理脚本与完整项目同步上架 Hugging Face、GitHub 和飞桨星河社区;FastDeploy、vLLM、Transformers 等主流框架即装即用,一键加载,立即可跑。

在 ERNIE-4.5-VL-28B-A3B 的坚实骨架上,ERNIE-4.5-VL-28B-A3B-Thinking 完成了一次“多模态进化”。中期训练阶段,我们把海量高质视觉-语言对灌进模型,表征厚度与跨模态对齐度同步拉升,图文推理直接跳档。 可验证任务则交给“多模态强化学习”:GSPO 与 IcePop 双策略稳住 MoE 的 RL 训练,再配合动态难度采样,让每步探索都落在“有效区间”,样本效率翻倍。 社区呼声最高的定位能力也被做深:指令一触发,模型就能在图上精准“画圈打点”,无需复杂提示。 新增“图像思考”外挂,把图片放大、以图搜图等工具装进工具箱,模型从此能“边看边查边想”,一步变身多模态 Agent 的基座。 仅激活 3B 参数,却能在多项基准上与旗舰级大模型贴身肉搏,用轻量级体重打出准 SOTA 的视觉成绩。

▎视觉推理

通过大规模强化学习策略,模型在复杂视觉任务中展现卓越的多步推理、图表解析与因果推理能力。

▎学科计算

凭借强大视觉能力,模型在拍照解题等学科推理中实现飞跃式提升,复杂题目也能轻松搞定!

▎视觉定位(Grounding)

定位更精准,指令执行更灵活,轻松触发复杂工业场景下的定位功能,效率直线上升!

▎图像思考(Thinking with Images)

如同真人般思考,模型可对图片自由放大缩小,把控每个细节,洞察每一处信息!

▎工具调用

具备强大的工具调用能力,模型可即时调用图片搜索等功能,轻松识别长尾知识,实现全方位信息获取!

▎视频理解

模型具备卓越的时间感知与事件定位能力,能够精准识别视频中不同时间段的内容变化,让视频分析更智能、更高效!