站在科技与文艺的十字路口,无需彷徨|Sora大模型带来的思考

明清娱娱 2024-03-03 08:42:30

作者:包冉

(作者系中国通信标准化协会互动媒体标准推进工作委员会副主席)

OpenAI放出文生视频大模型Sora后,其“世界模拟器”的逼真效果震动全球。

近日,关于Sora的大讨论愈演愈烈,其对影视工业、广告业、游戏业乃至无人驾驶等行业深度影响正得到迅速关注和深度挖掘。其中,也不乏关于人工智能工业革命是否会带来行业颠覆、岗位替代与失业浪潮的新一波恐慌。

无论如何评价,Sora都意味着AI工程技术的伟大创新。在其背后,则是基础科学研究的扎实进步和对AIGC规律的新发现与新应用——

首先,DiT(Diffusion Transformers)的出现,引领了人工智能领域的新潮流。META团队将扩散型算法与Transformer架构相结合,在人工智能领域,深度学习与神经网络主导了近二十年的研究。而DiT则是扩散型算法的巅峰之作,这一突破为Sora的发展在“架构层-模型层”提供了坚实的技术支持。

《Scalable Diffusion Models with Transformer》,2022.05

其次,源自OpenAI科学家的DALL·E文生图模型,及其背后的系列论文,重新定义了图像与视频的关系,创新性的将单张图像视为单帧视频,从而统一了二者的数学表达和物理理解。可以说,这一理论视角的提出、科学框架的完成,直接促成了Sora这一伟大产品的诞生。

《ZeroShot Text-To-Image Generation》

第三,由杨立昆教授提出的时空补丁技术(Spacetime Patch),亦是Sora成功的关键之一。该技术的本质,是提出了一种将视频和图像训练语料进行有效压缩、训练的方式,“人为的”创造出一种视频大模型训练语料的基本单元。在数学的角度上,就是一个带有时间轴的三维矩阵,有点类似于最常见的魔方玩具,从而令Sora不仅仅是一个基于像素的视频-图像生成模型,更是一个能够观察世界、理解世界的模拟器,即实现对真实世界的物理规律洞察和全方位模拟。

Meta的AI首席科学家、纽约大学教授,图灵三巨头之一的杨立昆(Yann LeCun)

《Self-Supervised Learning From Images with a Joint-Embedding Predictive Architecture》,2023.01.19

综上所述,Sora的成功,并非只是科学技术与产品工程的胜利,更源自于天马行空的科学理论创新和工程实现理念妙思。

多个最强大脑的科学研究聚合,依然只是Sora成功的必要条件之三,唯有增加上OpenAI所信奉的初心执念——即创始人山姆·奥特曼的执念最终推动了Sora的发展。

OpenAI创始人山姆·奥特曼

山姆·奥特曼坚持大模型的缩放定律,缩放定律即“算力出奇迹”,如果训练的结果不够好,那就是堆砌的算力和语料规模还不足够大,只要规模足够大,就一定会产生智慧涌现,这也就是大模型的大本质。

那么,当在巨大的计算机算力加持下,在国际互联网海量的视频、图像语料喂养下,Sora这个起点已经展现出惊人的理解力、创造力和模仿力,势必为文艺创作和文化创造领域,注入强劲的内生活力,带来巨大的外部影响,在笔者看来,具体的影响至少包含三个方面——

其一,过去分立的、各具特色的文艺创作媒介载体与流派,如文学、电影、戏剧、音乐等,日益展现出多模态一体化创作的工具可能和趋势必然。新一代的文化与文艺工作者,无需纠结于在不同细分文艺领域的个体天赋、专业训练和实践经验,均可在AIGC乃至未来的AGI(通用人工智能)的帮助下,一次构思、多模输出,毕其功于一役在All-in-One式的创作过程中——这种可能令人激动,也确实容易令人惶恐。因为参照AI自身的成长速度,在可见的未来,不能掌握AI辅助创作工具的艺术家,其生产效率和产品多样性,将大大受限,不管此前有多大成就或多大名气。同时,新一代艺术家,还可以通过以Sora为代表的AIGC工具,创造性的将不同的传统艺术形式融合在一起,创造出新的艺术表达载体和流派,就像电音对传统音乐的加成、就像当年电影作为一种“新媒体&新媒介”跻身于人类艺术品类的圣殿之中。

其二,所以说,立足当代、面向未来的文艺与文化工作者,最起码要懂得并善用AI科技的加成,科技工作者则要更加的理解文化与文艺规律;当让,术业有专攻,不求甚解也可,但趋势要明了、技术要跟踪、实践要跟上——唯有如此,才能实现新的文艺创作自由王国。毕竟,时代变了。

再次,一个对中国文艺体系很现实的负外部性,即将迅猛的呈现出来——既有的内容审核体系将被科技创新严重冲击,强制性导向引领的难度呈几何级数放大,作为一名数字文化工作者,尤其是在相关标准化领域浸润多年的工作者,笔者深深感到,科技创新与内容审核之间的悖论,在人工智能时代所爆发出的发展与安全之间的矛盾,将很快到达一个零和博弈的阶段;出于对现实国情的考量,务实的讲,只能先做到维持底线不破,因为面对巨潮一般的内容生产力爆发,如何保持内容的质量和合法性,同时不压制科技创新带来的AI文艺复兴,这是整个中国文化产业将面临的重大核心挑战。

但从微观视角看,各行业不应对AI的出现产生过度焦虑的反应,未来人类独有能力的保留地,依然将是对语言和文字的娴熟掌握、精准表达,对艺术品质的高品位直觉和对无穷想象力的激发。

一言以蔽之,具有好奇心的民众和民族,必将在新世纪、新时代的全球文化大创新中,迸发出最令人瞩目的影响力!

0 阅读:0

明清娱娱

简介:感谢大家的关注