百度开源ERNIE-4.5-VL-28B-A3B-Thinking，更强的多模态理解与推理

11 月 11 日，百度将文心多模态“深度思考”版 ERNIE-4.5-VL-28B-A3B-Thinking正式开源。别看它只激活 3B 参数，性能已能对标业界顶尖大模型。

新模型在 ERNIE-4.5-VL-28B-A3B 的基础上升级了视觉–语言联合推理，文档、图表一扫就懂，理科推导、文科归纳、通用视觉问答全线提升。更把空间定位与工具调用融进“图像思考”模式，让多模态交互不再只是“看得懂”，而是“想得深、做得出”。

ERNIE-4.5-VL-28B-A3B-Thinking 现已基于 Apache 2.0 协议全面开放，商用零门槛。预训练权重、推理脚本与完整项目同步上架 Hugging Face、GitHub 和飞桨星河社区；FastDeploy、vLLM、Transformers 等主流框架即装即用，一键加载，立即可跑。

在 ERNIE-4.5-VL-28B-A3B 的坚实骨架上，ERNIE-4.5-VL-28B-A3B-Thinking 完成了一次“多模态进化”。中期训练阶段，我们把海量高质视觉-语言对灌进模型，表征厚度与跨模态对齐度同步拉升，图文推理直接跳档。可验证任务则交给“多模态强化学习”：GSPO 与 IcePop 双策略稳住 MoE 的 RL 训练，再配合动态难度采样，让每步探索都落在“有效区间”，样本效率翻倍。社区呼声最高的定位能力也被做深：指令一触发，模型就能在图上精准“画圈打点”，无需复杂提示。新增“图像思考”外挂，把图片放大、以图搜图等工具装进工具箱，模型从此能“边看边查边想”，一步变身多模态 Agent 的基座。仅激活 3B 参数，却能在多项基准上与旗舰级大模型贴身肉搏，用轻量级体重打出准 SOTA 的视觉成绩。

▎视觉推理

通过大规模强化学习策略，模型在复杂视觉任务中展现卓越的多步推理、图表解析与因果推理能力。

▎学科计算

凭借强大视觉能力，模型在拍照解题等学科推理中实现飞跃式提升，复杂题目也能轻松搞定！

▎视觉定位（Grounding）

定位更精准，指令执行更灵活，轻松触发复杂工业场景下的定位功能，效率直线上升！

▎图像思考（Thinking with Images）

如同真人般思考，模型可对图片自由放大缩小，把控每个细节，洞察每一处信息！

▎工具调用

具备强大的工具调用能力，模型可即时调用图片搜索等功能，轻松识别长尾知识，实现全方位信息获取！

▎视频理解

DC娱乐网

百度开源ERNIE-4.5-VL-28B-A3B-Thinking，更强的多模态理解与推理

热门分类