这个时代,AI不再仅仅作为辅助工具而存在,而是作为推动产业升级换代的核心动力,正引领内容创作与消费步入前所未有的智能化纪元。
Sora横空出世,为产业带来变革与重构
(图源:pymnts)
前几天,由全球AI巨头OpenAI发布的文生视频大模型Sora,一经“出世”便引发全网关注。相信大家都看到了,由Sora生成的一系列高清视频,逼真效果几乎能以假乱真。Sora的到来似乎已经在告诉我们——AI技术史上终于又迎来了一项划时代的产物。
Sora文生视频大模型的出现,也意味着AI正以前所未有的维度和创造力介入内容产业,不仅印证了技术创新边界被持续拓宽和深化,更是对当今时代内容创作生态、传播机制及消费模式的一场革命性重构与颠覆。
目前,Sora只适用于一些相关领域的专家用来测试关键领域的伤害或风险。但OpenAI 允许一些视觉艺术家、设计师和电影制作人访问,以此来获得有关如何改进创意专业人士模型的反馈。
尽管Sora暂不向公众开放,但相信大家应该已经可以在社交媒体上随时刷到由Sora模型运行的视频,以及不少博主在线分享Sora的使用体验。前几天,Sora的母公司OpenAI 首席执行官“奥特曼” (Sam Altman) 也在社交媒体上发文宣传Sora 视频,称希望展示 AI 模型的实际效果。
Sora模型对影视娱乐领域的影响
Sora文生视频模型的出现,极大地突破了众多产业界限,改变了相关领域未来的应用场景,将在未来塑造出更加多元化、互动性更强的数字世界。
(图源:thepeoplespace)
首当其冲的就是影视制作、游戏娱乐等相关领域。在影视制作和游戏娱乐领域,两者可以共享技术资源和创意思维,实现内容创作和用户体验的双向增强。通过引入Sora模型生成逼真的虚拟场景和角色,创建真实、极具沉浸感的游戏体验,非常直观地降低了影视制作领域等相关行业领域的内容制作门槛。
此外,Sora文生视频模型对于在线教育领域也同样带来了新颠覆,结合虚拟现实(VR)和增强现实(AR)技术,Sora能够创造出富有吸引力且互动性强的学习环境,生成互动性和趣味性的教学内容等,使学习过程不再枯燥。
Sora等文生视频模型的应用还将给不少领域带来更优质的用户体验和价值。比如音视频会议中,可基于模型实现实时背景替换、虚拟人物互动等功能,提高会议的趣味性和效率;在社交媒体上,可基于模型生成个性化的视频内容,分享精彩生活,趣味升级。
可见,Sora这类的新一代AI模型的落地,开启了多个行业之间相互学习和融合的新篇章,为传统行业及新兴产业都开辟了无限的可能性,即将掀起一场数字化转型新兴浪潮。
Sora如何运行?
与同样来自OpenAI的“家族”成员ChatGPT相比,Sora是如何运行的呢?
(图源:cmswire)
据介绍,Sora 是一个扩散模型(生成式模型的一种),它基于此前对 DALL-E 和 GPT 模型的研究之上,采用 DALL-E 3 字幕重写技术,可以为视觉训练数据生成高度描述性的标题,并更准确地遵循用户的文本说明。
与其“家族成员”ChatGPT模型类似,Sora 同样使用的是 transformer 架构,可以使其具有出色的扩展性能。新AI 模型创建的视频,最初看起来像静态噪音,随后通过许多步骤消除噪音,以此逐渐对这些视频进行转换。
除了支持通过文本生成视频之外,Sora还支持图像或视频等模态输入来提示生成。比如用户可以使用 DALL-E 创建图像,然后要求 Sora 为该图像制作动画。
当然视频生成视频编辑也是一种选择,用户可以将视频上传到 Sora ,利用扩散模型来编辑视频,例如更改视频的设置、将两个输入视频连接起来进行无缝过渡或及时向后或向前扩展视频以产生无限循环,另外Sora模型还支持生成高达 2048x2048 分辨率的图像,实用性非常强。
Sora存在技术缺陷“穿帮”,安全风险
如何防范
根据其母公司OpenAI 的说法,目前Sora模型仍存在一些缺陷,或难以准确模拟场景的物理特性或理解因果关系的特定实例。
(图源:gadgettendency)
(图源:gadgettendency)
也就是说,相比真实的视频来说,Sora生成的视频如果仔细看就会发现其“穿帮”现象。比如如果一个人咬了一口饼干,之后生成的视频里饼干可能并没有咬痕,再比如在做饭的时候,可能会有一个勺子“凭空消失”等等。
对此,OpenAI 首席执行官“奥特曼” (Sam Altman)也专门在社交媒体账号上分享了相关视频演示,视频中非常直观地显示了AI 模型的弱点:五只灰狼幼崽在一条偏远的碎石路上嬉戏和追逐,周围环绕着草地。画面中幼崽们奔跑跳跃,互相追逐,互相啃咬,玩耍,但它们的身影也时不时地相互重叠在一起又分离开来。
由于存在技术缺陷,AI生成的视频会让人看到视频“穿帮”,也正因为如此,也会让人们能够分辨出现实中拍摄的视频和AI生成的视频,避免混淆造成安全风险。
因此,为了避免以上风险的出现,OpenAI除了开发新的工具和技术,还将基于、DALL-E 3构建的现有安全方法来重写提交的文本,监测敏感信息及图像的生成,以规避相关法规和隐私问题。
随着全球科技巨擘及众多创新型企业在AI芯片技术竞赛中加速前进,我们也期待国内AI视频生成模型的快速到来,为国内生成式AI市场注入活力,进一步推进数字化转型进程。