谷歌大模型震撼发布,长音频理解能力脱颖而出!

科技研习看今朝 2024-04-14 01:28:27

Google 推出了Gemini 1.5 Pro的API升级版本,现已覆盖超过180个国家。此次更新引入了多项新功能,包括原生音频理解、文件API、系统指令和JSON模式等,进一步提升了模型的处理能力。

新版本的核心亮点在于对原生音频(语音)的理解能力,这意味着Gemini现在可以直接处理音频输入,无需先将音频转换为文本。此外,Gemini 1.5 Pro还解锁了新的使用场景,包括音频和视频模态的处理。这使得模型不仅能够理解视频的视觉内容,还能够分析视频中的音频元素,如对话和背景音乐,从而实现对视频内容的全面理解。

Gemini 1.5 Pro的升级还包括对输入模态的扩展,现在可以在Gemini API和Google AI Studio中理解音频(语音)。这一进步为多种应用场景打开了大门,例如:

多模态理解:Gemini 1.5 Pro能够结合视频中的视觉和音频信息,进行更全面的内容解析。

内容索引和搜索:深入理解视频图像和音频的能力,有助于创建更详细的内容索引,便于用户基于视频内容进行搜索。

增强的交互体验:综合理解视频内容的能力可以用于开发更丰富的交互式应用,如自动生成视频摘要和基于内容的推荐系统。

视频内容分析:Gemini 1.5 Pro可用于视频监控、内容审查和情感分析等场景,通过理解视频和音频内容,自动识别关键事件和特定标签。

创意内容生成:综合理解视频图像和音频的能力,也使得Gemini 1.5 Pro能够在内容创作领域发挥作用,如自动生成视频字幕和配音。

此外,Gemini API也进行了改进,包括:

系统指令:通过定义角色、格式、目标和规则,引导模型响应,以适应特定用例。

JSON模式:指示模型输出JSON对象,支持从文本或图像中提取结构化数据。

函数调用的改进:可以选择模式来限制模型的输出,提高输出的可靠性。

性能方面,开发者现在可以通过Gemini API访问到下一代文本嵌入模型text-embedding-004(在Vertex AI中为text-embedding-preview-0409),该模型在MTEB基准测试中展现了卓越的检索性能,超越了所有具有可比维度的现有模型。这些升级为开发者提供了更强大的工具,以构建更智能、更互动的应用程序。

详细可见:https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

音频理解能力:https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb?continueFlag=1f50ddca08b37fc4f2952d09324b7461

高性价比GPU资源​:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_tongyong_toutiao

0 阅读:0

科技研习看今朝

简介:感谢大家的关注