百度文心大模型5.0上线

转自：南京晨报

当AI开始真正融入教育、心理、家庭、医疗等真实生活场景，我们才真正迎来人工智能的“下半场”。在百度“文心·MOMENT大会”现场，记者看到了各种基于文心大模型开发的各种智能软硬件：

有面向5—15岁青少年打造的专属“心灵树洞”，帮孩子们建立“校园+家庭”双场景心理健康闭环。还有AI语音聊天30轮，系统即可自动挖掘故事、生成回忆录、珍藏记忆的软件、可以智能识别手语的软件……

百度发布并上线的原生全模态大模型文心5.0正式版，采用自回归架构进行原生全模态建模——将文本、图像、视频、音频等数据在同一模型框架中联合训练，实现多模态特征的深度融合与协同优化。这一设计无疑让模型具备了更强的跨模态理解与生成能力。

2.4万亿参数原生全模态大模型面世

百度发布并上线的原生全模态大模型文心5.0正式版，模型参数达2.4万亿，采用原生全模态统一建模技术，具备全模态理解与生成能力，支持文本、图像、音频、视频等多种信息的输入与输出。

目前，个人用户可在文心APP、文心一言官网体验，企业与开发者可通过百度千帆平台进行调用。在40余项权威基准的综合评测中，文心5.0正式版的语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等模型，稳居国际第一梯队。图像与视频生成能力与垂直领域专精模型相当，整体处于全球领先水平。此前，百度文心助手月活已突破2亿。

据百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜介绍，与业界多数采用“后期融合”的多模态方案不同，文心5.0的技术路线采用统一的自回归架构进行原生全模态建模，将文本、图像、视频、音频等多源数据在同一模型框架中进行联合训练，使得多模态特征在统一架构下充分融合并协同优化，实现原生的全模态统一理解与生成。

此外，文心5.0采用超大规模混合专家结构，具备超稀疏激活参数，激活参数比低于3%，在保持模型强大能力的同时，有效提升推理效率。同时，基于大规模工具环境，合成长程任务轨迹数据，并采用基于思维链和行动链的端到端多轮强化学习训练，显著提升了模型的智能体和工具调用能力。

应用才是价值所在：“让AI跑得稳、答得对、用得起”

“应用模型的价值不在模型里，而在应用里。”百度应用模型研发部负责人贾磊在现场表示，真正的挑战是让模型在真实场景中“跑得稳、答得对、用得起”。

为此，百度构建了“矩阵模型+专精模型”双轨体系：

基于文心基础大模型，百度构建了矩阵模型和专精模型。矩阵模型面向产品级应用和通用场景快速落地，包括文心Lite模型、视频大模型和语音大模型；专精模型面向行业应用和垂直场景，包括搜索闪电专精模型、电商蒸汽机模型、文心数字人大模型及行业大模型。

贾磊在现场分享了三项技术突破：基于声音Token的端到端合成大模型、5分钟超越真人的直播技术、实时交互数字人技术。

基于声音Token的端到端合成大模型由满帧语音token的离散表示来定义token，以MoE大语言模型来建模韵律，基于flow的后处理来描述声音的谱分布，基于Unet的自重构特征的vocoder来描述刻画声音。

5分钟超越真人的直播技术通过对目标音色的少量采样，经过脸谱和化妆，通过检索增强匹配不同文体和场景的韵律模式，使合成语音具备直播带货所需的情绪、节奏与感染力。

正如现场一位参会者所说：“以前觉得AI是‘聪明的机器’，现在发现它更像是‘有温度的伙伴’。”

南京晨报/爱南京记者杨静

DC娱乐网

百度文心大模型5.0上线

热门分类