谷歌的闪光弹:发布会上狂发十几种产品,终结OpenAI的遥遥领先

开心盖土 2024-05-16 06:03:26

这里所有文章均来自

微信公众号“火星AIGC”

想要看到更多更新的AI前沿信息、AI资讯和AI工具实操,请关注微信公众号“火星AIGC”。

OpenAI 在它的春季更新发布会上扔了个震撼弹宣告其遥遥领先后,仅隔一天,昨晚谷歌I/O 2024 发布会上狂扔闪光弹,发布了十几个新产品,终结了OpenAI 的遥遥领先。

在接近两个小时的发布会上,谷歌展示了十余种新产品和即将升级的产品。虽然个别产品的性能确实超过或接近了 OpenAI,但是在一天前接受了OpenAI 的震撼后,大家也只是被闪了一下而已,已没有太多的惊喜。有人称谷歌是 “AI 界的汪峰”,就是很成功,产品也不错,但就是上不了头条。

总结一下发布会的要点,后面再解析产品。这次谷歌I/O 2024发布会上推出的产品主要是三大类:

■ AI 搜索:谷歌新的AI Overviews,具有多步推理能力、搜索概要功能的加强版AI 搜索。

■ AI 大模型:新的谷歌旗舰大模型 Gemini 1.5 Flash,开源大模型 Pali Gemma 和Gemma 2。将谷歌 AI 产品集合使用的 Google Workspace 以及手机版的迷你AI——Gemini Nano。 还有即将在今年晚些时候推出的AI 助理—— Astra ,它跟 ChatGPT 一样可以语音视频对话。

■ 多模态AI产品:新的图像生成 Imagen3,超过Sora 生成时长的 AI 视频生成模型 Veo ,生成音乐的 Music AI Sandbox 。

谷歌搜索的新起点

作为老牌的搜索王者,随着Perplexity在AI 搜索上的崛起,谷歌搜索的地位摇摇欲坠。这次发布的谷歌 AI Overviews 就是在谷歌搜索加入了AI 功能。它的多步推理能力,可以帮助制定膳食和旅游计划等,你只需要输入“为四口之家列出三天的膳食”之类的需求,谷歌AI Overviews可以搜索,并多步推理帮你列出三天的食谱和链接。

不好描述动态的问题,还可以上传视频来提问。谷歌展示了通过上传视频提出问题搜索解决旧唱片机无法工作的问题。

谷歌的大模型家族

新增的Gemini 1.5 Flash 是一款比Gemini 1.5 Pro 更轻、更快的型号,一样的100万 token 的上下文,也推出了免费版,意味着可以一次性推理1小时的视频、11小时的音频、3万行代码、70万字的文本。Gemini 1.5 Flash 的API 价格是100M token 0.35美元,而对使用 Gemini 1.5 Pro 的API的付费用户扩大到200万token 的上下文窗口。

桌面端的Gemini Nano 直接构建到谷歌浏览器中。这将使开发人员能够使用设备上的模型来支持自己的 AI 功能。例如,谷歌计划利用这一新功能来支持 Gmail 中 Workspace Lab 现有的“帮助我写作”工具等功能。

手机端的Gemini Live,类似于ChatGPT4o 那样可以让用户在智能手机上与 Gemini 进行“深入”的语音聊天。用户可以在聊天机器人说话时打断 Gemini,提出澄清问题,它会实时适应他们的语音模式。 Gemini 可以通过智能手机摄像头拍摄的照片或视频来查看用户的周围环境并对其做出反应。谷歌声称,它利用生成人工智能领域的新技术来提供卓越的、不易出错的图像分析,并将这些技术与增强的语音引擎相结合,以实现更一致、情感表达和现实的多轮对话。

新的开源大模型,即将推出的视觉语言开放模型 PaliGemma,和将在6月推出的 Gemma 2 。新的 Gemma 2开源模型有 27B 参数,性能优于一些尺寸超过其两倍的模型,仍可以在 GPU 或 Vertex AI 中的单个 TPU 主机上高效运行。

Astra 是一个通用 AI 助手,演示效果跟GPT4o 一样,可以实时对话以及视频聊天。谷歌仅仅展示了一个演示视频,最终推出可能要很晚。

多媒体生成

图像生成模型:Imagen 3可以更好地理解自然语言、提示背后的意图,并融合较长提示中的小细节。该模型的高级理解有助于其掌握一系列风格。

Prompt: A photograph of a stately library entrance with the words "Central Library" carved into the stone.

Prompt: The word "light" formed from colorful feathers arranged on a black background.

Prompt: A photo of a man with short hair and beard smiling at the camera. The background is blurry and it shows trees and buildings in light colors.

Prompt: View from above of beautiful river canyon with trees, showcasing its stunning natural beauty with green mountains and blue waters. The photo captures the vastness of nature's creation in the style of its creation.

视频生成模型:Veo 可以生成高质量 1080p 分辨率,并且时间可以超过一分钟的视频。凭借对自然语言和视觉语义的深入理解,它生成的视频能够密切代表用户的创意愿景 - 准确捕捉提示的语气并在较长的提示中呈现细节。该模型提供了前所未有的创意控制水平,并理解“延时拍摄”或“风景空中拍摄”等电影术语。 Veo 创建一致且连贯的镜头,因此人物、动物和物体在整个镜头中移动逼真。仅仅从分辨率、时长和放出来的小样Demo 看,已经超过了Sora。

以上两种生成模型,从今天开始,可供选择的创作者在ImageFX 和 VideoFX 中进行私人预览aitestkitchen.withgoogle.com,并可申请加入候补名单labs.google/VideoFX。

其实写到一半时我就意兴阑珊,但转眼想想,这个世界总是有领先者,也有跟随者。一枝独秀不是春,只有百花齐放才能推动 AI 领域的快速发展。

0 阅读:0

开心盖土

简介:感谢大家的关注