谷歌大模型震撼发布，长音频理解能力脱颖而出！

Google 推出了Gemini 1.5 Pro的API升级版本，现已覆盖超过180个国家。此次更新引入了多项新功能，包括原生音频理解、文件API、系统指令和JSON模式等，进一步提升了模型的处理能力。

新版本的核心亮点在于对原生音频（语音）的理解能力，这意味着Gemini现在可以直接处理音频输入，无需先将音频转换为文本。此外，Gemini 1.5 Pro还解锁了新的使用场景，包括音频和视频模态的处理。这使得模型不仅能够理解视频的视觉内容，还能够分析视频中的音频元素，如对话和背景音乐，从而实现对视频内容的全面理解。

Gemini 1.5 Pro的升级还包括对输入模态的扩展，现在可以在Gemini API和Google AI Studio中理解音频（语音）。这一进步为多种应用场景打开了大门，例如：

多模态理解：Gemini 1.5 Pro能够结合视频中的视觉和音频信息，进行更全面的内容解析。

内容索引和搜索：深入理解视频图像和音频的能力，有助于创建更详细的内容索引，便于用户基于视频内容进行搜索。

增强的交互体验：综合理解视频内容的能力可以用于开发更丰富的交互式应用，如自动生成视频摘要和基于内容的推荐系统。

视频内容分析：Gemini 1.5 Pro可用于视频监控、内容审查和情感分析等场景，通过理解视频和音频内容，自动识别关键事件和特定标签。

创意内容生成：综合理解视频图像和音频的能力，也使得Gemini 1.5 Pro能够在内容创作领域发挥作用，如自动生成视频字幕和配音。

此外，Gemini API也进行了改进，包括：

系统指令：通过定义角色、格式、目标和规则，引导模型响应，以适应特定用例。

JSON模式：指示模型输出JSON对象，支持从文本或图像中提取结构化数据。

函数调用的改进：可以选择模式来限制模型的输出，提高输出的可靠性。

性能方面，开发者现在可以通过Gemini API访问到下一代文本嵌入模型text-embedding-004（在Vertex AI中为text-embedding-preview-0409），该模型在MTEB基准测试中展现了卓越的检索性能，超越了所有具有可比维度的现有模型。这些升级为开发者提供了更强大的工具，以构建更智能、更互动的应用程序。

详细可见：https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

音频理解能力：https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb?continueFlag=1f50ddca08b37fc4f2952d09324b7461

高性价比GPU资源：https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_tongyong_toutiao

DC生肖网

谷歌大模型震撼发布，长音频理解能力脱颖而出！

科技研习看今朝