DC娱乐网

百度放大招:ERNIE-4.5-VL 小模型比肩巨头 权重同步开源

近日,百度正式推出新型多模态推理模型 ERNIE-4.5-VL-28B-A3B-Thinking,以混合专家(MoE)架

近日,百度正式推出新型多模态推理模型 ERNIE-4.5-VL-28B-A3B-Thinking,以混合专家(MoE)架构实现 “以小博大” 的技术突破 ——280 亿总参数量下仅需激活 30 亿参数即可运行,在多模态基准测试中性能比肩 GPT-5.1 与 Gemini 2.5 Pro,且基于 Apache 2.0 协议全面开源,引发行业震动。

MoE 架构成为此次技术突破的核心支撑。该模型将神经网络拆解为多个 “专家小组”,通过门控机制动态选择相关专家处理任务:输入数据进入后,门控系统会生成概率分布,仅激活与当前任务最相关的参数模块,如处理图表理解时调用数据解析专家,分析视频时激活时序处理专家。这种 “按需激活” 模式使 280 亿总参数量的模型,每个 token 仅需调动 30 亿参数,既降低了计算冗余,又保持了高精度推理,计算效率较传统稠密模型提升数倍。

多模态视觉推理能力实现全面升级。ERNIE-4.5-VL 可精准处理图表理解、视频理解、视觉定位及工具增强图像搜索四大核心任务:在金融报表分析场景中,能快速提取图表数据并生成解读报告;面对动态视频内容,可识别关键帧事件并梳理时间线;针对复杂图像,还能定位特定物体并联动搜索工具补充信息。在 MathVista 数学视觉推理测试及多个 VQA(视觉问答)套件中,其准确率与 GPT-5.1、Gemini 2.5 Pro 基本持平,但模型规模仅为同类产品的 1/3 至 1/2。

开源举措更打破行业壁垒。百度已将该模型的文档、演示及权重同步上线 Hugging Face 平台,基于 Apache 2.0 协议允许开发者自由使用、修改及二次开发。这与 OpenAI 对 GPT-5.1 的闭源策略形成鲜明对比,为中小企业及科研机构降低了多模态 AI 的使用门槛。有开发者测试后表示:“小体量模型部署成本更低,开源后能快速适配智能客服、教育课件生成等场景。”

行业分析指出,百度此次发布标志着 AI 竞争从 “参数竞赛” 转向 “效率比拼”。MoE 架构的成熟应用解决了大模型算力消耗过高的痛点,而开源策略则有望快速积累生态优势。相较于 GPT-5.1 侧重 “情商与交互” 的迭代方向,ERNIE-4.5-VL 以 “高效 + 开源 + 多模态” 构建差异化竞争力,或将推动行业加速进入 “轻量化高精度” 发展阶段。目前,开发者可通过 Hugging Face 下载模型权重,百度同步提供了可视化演示工具供即时体验。