6月27日,科大讯飞正式发布星火大模型V4.0,科大讯飞董事长刘庆峰宣布星火V4.0七大核心能力全面提升,八大维度超越GPT-4 Turbo,值得一提的是,星火语音大模型再突破,科大讯飞发布74个语种/方言免切换对话,破解强干扰场景下语音识别难题;发布国际领先的极复杂场景语音转写技术,并通过云边端及软硬一体化解决方案,赋能汽车、家电、机器人等领域人机交互变革。
大模型时代,“大模型+语音”不但形成了加法效应,更形成了乘法效应,此次发布会,再次彰显了科大讯飞“语音王者”地位。
在发布会上,刘庆峰表示:“星火语音大模型的再次升级,使得万物互联时代的人机交互革命进一步深入。”。早在2020年,科大讯飞就科主导制定了全双工语音交互ISO/IEC国际标准,并于2023年5月正式发布。而在近期,科大讯飞作为第一完成单位申报的《多语种智能语音关键技术及产业化》项目,荣获国家科学技术进步奖一等奖。本次星火语音大模型进一步突破,主要就围绕多语种多方言识别与复杂场景语音识别展开。
首先在多语种多方言方面,星火语音大模型首个支持74种语言免切换识别,既包含波斯语、豪萨语、孟加拉语等国外小语种,也包括四川话、重庆话、上海话、南京话等国内方言。根据真实业务构建的语音输入场景测试集,星火语音大模型37个语种语音识别效果领先Whisper-V3 5,这是OpenAI发布的开源语音识别模型,具有国际领先水平,而星火语音大模型高于Whisper-V3 5.7%,足以见证卓越实力。
会上,科大讯飞更发布了基于星火语音大模型能力的讯飞同传软硬一体机,支持大会、展厅、旅游等不同场景同传使用。为了验证复杂场景语音识别能力,讯飞研究院的三位员工共同上台,在设备面前同时说出了三段截然不同的语言内容,一时之间人耳根本难以听清。结果讯飞同传软硬一体机精准分离每个人口述的内容,还实现了语音转写文字的实时同传,引发了现场嘉宾的阵阵掌声。
可见,星火语音大模型解决了强干扰场景下的语音识别难题,并基于讯飞多模态能力,在两人叠混场景、三人叠混场景中和-5dB高噪音场景中的语音转写效果远超Whisper-V3和Gemini1.5 Pro,更比讯飞单模态状态下有了显著提升。而这样的领先水平,也为星火语音大模型深入运用在各种人机交互场景奠定了基础。
发布会现场,一辆奇瑞星途星纪元ET出现在舞台右侧。这辆车配置了星火语音大模型的领先能力,展示了星火智能座舱的全面升级:包括全双工语音交互、多语种多方言免切自由交互、多情感多模态超拟人交互以及多模态状态感知等能力。星火智能座舱还实现了内外部信源的贯穿,获取整合各类传感器数据,充当起车内的智慧大脑。讯飞工作人员通过模拟日常驾乘场景,对相关功能进行了生动演示,给观众带来更了直观的感受。
演示中,得益于星火语音大模型的强大能力,司乘人员与星火可以不间断地用各类语种方言进行对话。当司机让星火用天津话讲个笑话时,星火用流利的方言讲了一段曹操带着幼子拜访刘备的故事,高度还原了天津话轻快幽默的神韵,其中天津话“幼子”谐音“柚子”,引得全场哄堂大笑。
最有意思的是,乘客还可以让星火测试司机的心率,这就需要调用车内的心率检测器信源了。在高速长途开车等场景下,这个功能很实用,也有利于安全驾驶。比如坐副驾的妻子可以了解长途驾车丈夫的疲劳情况。在现场宣传片中,星火基于心率检测功能,会对司机提出合理的空调温度调节与开窗通风建议,让关怀无微不“智”。
目前,基于星火大模型V4.0以及星火语音大模型的能力升级,为包括汽车座舱在内的各种行业场景赋予了高度智能化的人机交互体验。未来,随着“大模型+语音”能力的不断提升,人机交互将朝着更加智能、便捷与贴心的方向发展,我们不妨拭目以待!