转自:南京晨报
当AI开始真正融入教育、心理、家庭、医疗等真实生活场景,我们才真正迎来人工智能的“下半场”。在百度“文心·MOMENT大会”现场,记者看到了各种基于文心大模型开发的各种智能软硬件:
有面向5—15岁青少年打造的专属“心灵树洞”,帮孩子们建立“校园+家庭”双场景心理健康闭环。还有AI语音聊天30轮,系统即可自动挖掘故事、生成回忆录、珍藏记忆的软件、可以智能识别手语的软件……
百度发布并上线的原生全模态大模型文心5.0正式版,采用自回归架构进行原生全模态建模——将文本、图像、视频、音频等数据在同一模型框架中联合训练,实现多模态特征的深度融合与协同优化。这一设计无疑让模型具备了更强的跨模态理解与生成能力。
2.4万亿参数原生全模态大模型面世
百度发布并上线的原生全模态大模型文心5.0正式版,模型参数达2.4万亿,采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出。
目前,个人用户可在文心APP、文心一言官网体验,企业与开发者可通过百度千帆平台进行调用。在40余项权威基准的综合评测中,文心5.0正式版的语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等模型,稳居国际第一梯队。图像与视频生成能力与垂直领域专精模型相当,整体处于全球领先水平。此前,百度文心助手月活已突破2亿。
据百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜介绍,与业界多数采用“后期融合”的多模态方案不同,文心5.0的技术路线采用统一的自回归架构进行原生全模态建模,将文本、图像、视频、音频等多源数据在同一模型框架中进行联合训练,使得多模态特征在统一架构下充分融合并协同优化,实现原生的全模态统一理解与生成。
此外,文心5.0采用超大规模混合专家结构,具备超稀疏激活参数,激活参数比低于3%,在保持模型强大能力的同时,有效提升推理效率。同时,基于大规模工具环境,合成长程任务轨迹数据,并采用基于思维链和行动链的端到端多轮强化学习训练,显著提升了模型的智能体和工具调用能力。
应用才是价值所在:“让AI跑得稳、答得对、用得起”
“应用模型的价值不在模型里,而在应用里。”百度应用模型研发部负责人贾磊在现场表示,真正的挑战是让模型在真实场景中“跑得稳、答得对、用得起”。
为此,百度构建了“矩阵模型+专精模型”双轨体系:
基于文心基础大模型,百度构建了矩阵模型和专精模型。矩阵模型面向产品级应用和通用场景快速落地,包括文心Lite模型、视频大模型和语音大模型;专精模型面向行业应用和垂直场景,包括搜索闪电专精模型、电商蒸汽机模型、文心数字人大模型及行业大模型。
贾磊在现场分享了三项技术突破:基于声音Token的端到端合成大模型、5分钟超越真人的直播技术、实时交互数字人技术。
基于声音Token的端到端合成大模型由满帧语音token的离散表示来定义token,以MoE大语言模型来建模韵律,基于flow的后处理来描述声音的谱分布,基于Unet的自重构特征的vocoder来描述刻画声音。
5分钟超越真人的直播技术通过对目标音色的少量采样,经过脸谱和化妆,通过检索增强匹配不同文体和场景的韵律模式,使合成语音具备直播带货所需的情绪、节奏与感染力。
正如现场一位参会者所说:“以前觉得AI是‘聪明的机器’,现在发现它更像是‘有温度的伙伴’。”
南京晨报/爱南京记者杨静