2024年,在Sora爆发后,视频AIGC如雨后春笋般爆发,AIGC热度居高不下。然而,AIGC当前正面临着“叫好不叫座”的场面——跟5G、XR等技术面临的境况相似。
互联网上充斥着关于AIGC新品或更新的报道,且大多数的标题都显得耸人听闻,比如《3300万剪辑师被革命, Sora、Pika、Gen-2将全面登陆Adobe》《Sora“炸场”,中美AI差距有多大?》《微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”》。
对大多用户来说,“革命”、“炸场”、“炸裂”的产品都遥不可及,要么根本没法体验,要么不知道能用来干什么。虽然有一些投机者靠售卖AIGC课程赚得钵满盆满,但真正像微信、百度、淘宝一样被人们日常用起来的AIGC产品几乎没有。
任何技术只有应用到场景,解决实际问题,才能体现出价值。落地,成了大模型的头等大事。百度CEO李彦宏在最近的百度AI开发者大会上说:“大语言模型本身并不直接创造价值,基于大模型开发出来的AI原生应用才能满足真实的市场需求。”在联想、360、阿里云等公司的活动上,高管都在讨论同一个话题:让大模型落地,转化成AIGC应用。过往的一次次技术革命已展现出一条规律:杀手级应用是一种技术真正走向大规模应用的“奇点”。
庆幸的是,在视频AIGC领域,我观察到已经有一些更务实的产品在默默壮大,甚至大有成为AIGC杀手级应用的势头——比如3D视频AIGC明星公司魔珐科技旗下的有言。
Sora很伟大,但仍在“概念机”阶段2024年Sora横空出世,所生成的以假乱真的视频震惊世人。Sora展现出了机器从未拥有的真实世界理解与模拟能力,得益于背后的两项核心技术突破——Spacetime Patch(时空补丁)技术和Diffusion Transformer(DiT,或扩散型 Transformer)架构,这给业界带来了巨大的启发,推动更多玩家强化视频AIGC,比如谷歌Lumiere、Meta的V-JEPA。
OpenAI官方强调,Sora并不完美,在技术层面,Sora存在一些缺陷,比如难以准确模拟复杂场景的物理原理,无法理解事物的因果关系,混淆提示的时间与空间细节,最典型的就是出现了“出蜡烛火苗不动、被子没碎红酒先漏”等“视频BUG”。
更严峻的问题在于:Sora并不是一款商品,甚至也不是一款产品,它更像是一款“概念机”或者说“概念车”。Sora当前并未对公众开放,即便开放也面临重重问题:
一是可靠性低导致可用性低。生成结果不确定是当前所有AIGC产品的致命缺陷,包括文生文AIGC如ChatGPT。ChatGPT无法取代搜索,因为它的结果不是100%准确,用户获取答案后一定需要去传统搜索引擎再比对。同样,视频AIGC如Sora、Pika生成视频也存在结果的不确定性,就像开盲盒一样,有时候会有惊艳的结果,有时候则会让人大失所望,用户需要不断修改Prompt、不断重试,碰运气,且需对结果反复校验。结果就是,用户可以体验它们,在极少数场景下“玩儿一下”,但无法真正使用它们。
二是不可控不可编辑导致场景极窄。制作视频是一个精细活儿,不论是企业对外的品牌营销、产品营销、社媒运营、大型活动、电商运营、专题栏目、企业内训等高频视频场景,抑或是内容创作机构对外输出的资讯、评测、Vlog、短剧等视频,都有着“大量信息浓缩在短视频中”的信息高密度特征,需要专业剪辑人员精准配置素材,如BGM、提示词、转场动画、动图、特效,同时在角色、场景、灯光以及道服化上都要有主动创意设计。Sora们最多只能生成创意类素材“贴片”,哪怕时长增加生成的视频也很难被直接应用(比如被自媒体直接发布到平台),创作者必须要进行再次编辑。
在联想TechWorld上,杨元庆就指出,AI不是取代谁而是“增强智能”,是提效工具。著名导演陆川则指出,AI对影视工业的价值是“极大提升创意的视觉化速度”,但却不可能取代人的创意。因此,视频AIGC生成内容的可控可编辑至关重要。
三是目前依然缺乏跑得通的商业模式。一个技术要从“概念产品”成为“产品”,关键是要能真正被用户使用起来,解决用户在具体场景中的具体问题。而一款产品要成为商品,则要有对应的商业模式。对于技术产品来说,商业模式的成立更重要:只有商业化才能持续反哺技术的进步。然而,当前的AIGC产品,包括ChatGPT、Sora在内都没有成型的商业模式,比如谷歌母公司Alphabet董事长John Hennessy就曾表示,基于大型语言模型的搜索的成本可能是标准关键词搜索的10倍,再加上体量不够没有广告等商业模式,ChatGPT很难大规模普及。今年2月ChatGPT官网停止Plus付费订阅项目的购买注册,原因是“需求量太大”导致算力跟不上。
因为结果不可靠不确定、不可控不可编辑、不可商业化三大原因,包括Sora在内的诸多视频AIGC以及大部分其他AIGC,都停留在概念阶段,只能被称为“娱乐AI”,而不是真正可用的商业级或者说生产级AI,这是当前AIGC“叫好不叫座”的症结所在。
可商用是AIGC落地的重中之重AIGC是人类迄今为止发明的最复杂的技术之一,它让人类看到了AGI(通用型人工智能)的曙光,打开了机器“无所不能”的全新想象空间。因此面对AIGC,人们如同原始人祖辈发现火种一样兴奋是完全可以理解的。在AIGC发展进程中,OpenAI等行业巨鳄持续研发更强大的基础大模型技术,永攀技术高峰也不可或缺。
而在AIGC落地上,推出可商用的产品则是绕不过的一步。可商用产品可以没有Sora炫酷,但一定要能实实在在解决人们生活与工作中的问题,哪怕是小问题,只有这样才有人愿意买单,才能让AIGC成为商用产品。
在视频AIGC领域,魔珐科技旗下的有言就给出了另外一种解法。依托魔珐科技在3D虚拟人与AIGC上多年的技术积累以及垂直场景锤炼,有言采取了与Sora等市面上主流视频AIGC产品截然不同的产品思路,成为行业首款生成结果可靠、可控、可编辑的商业化视频AIGC产品。
(图源:魔珐有言官网)在产品实现上,有言采取的是“增强智能”的思路,也就是说不是将一切工作丢给AIGC,而是用AIGC技术来提升3D视频生成的效率、质量与创意。
在AIGC技术爆发前,魔珐科技就已实现3D虚拟人和3D内容的工业化生产,服务了各行各业的超200家企业客户。自研的全栈AIGC技术则给魔珐科技带来了重塑3D视频生成技术的机会。
今年3月, “魔珐有言AIGC一站式3D视频创作平台”正式上线对公众开放。跟Sora、Runway、Pika等视频AIGC,以及Synthesia AI、Heygen、腾讯智影、字节即创、商汤如影等2D数字人生成不同,“魔珐有言”结合三维图形学技术与AIGC技术,让视频AIGC结果可控可靠、可编辑,进而具备前所未有的实用性。
“魔珐有言”并没有将“创意”全部交给AI来做,而是将AIGC糅合在现实世界人类制作视频的流程中,让视频制作提效降本、降低门槛。人类用传统方式制作视频时,需考虑角色、场景、运镜、灯光、屏幕内的素材等视频要素,有言在进行3D视频生成时,也会基于3D人物、3D场景和灯光、3D镜头、素材(屏幕)等要素,让对应要素可AIGC,同时再进行智能合成,最终渲染生成3D视频。
在魔珐有言内还内置了海量视频模版案例库,用户生成视频可选择视频场景、人物形象、声音动作等模版,再输入自定义内容(如台词)进行3D视频内容生成,这一过程用户可对人物、动作、场景甚至相机镜头角度进行编辑。
(魔珐有言官网展示的模板库)
在体验后我发现,“魔珐有言”确实不如Sora们炫酷,生成的视频也并非主打“惊喜创意”,它也不会承诺用户“给一句话就丢出一个完整视频”,而是提供一种全新的3D视频创作模式,让人们可以快速定制3D视频,特别是拥有人物形象和准确讲解的3D视频。
通过海量模板化的3D预置内容、原子化的3D视频素材,有言做到了3D视频生成结果的可靠可控可编辑,规避了其他视频AIGC的缺陷。在使用魔珐有言时,我感觉它在易用性上已经足以跟剪映等UGC视频剪辑工具看齐,而最大的突破在于让创作者省掉了视频拍摄与录制环节的许多工序,比如场地、演员、灯光、摄影等,进而大幅缩短了视频制作时间、降低了视频制作成本。
(魔珐有言具有高度的结果可靠性、可控性、确定性和可编辑性)
“不是最炫酷的,却是最实用的”,魔珐有言也成了许多务实的企业的选择,在上线前就已有近50家各行业头部客户付费购买其企业旗舰版产品,其中包含东吴证券、中金财富、广州广电、苏州广电、海尔集团、方太集团、老板电器、斯凯奇、中伦律所、爱尔眼科、自然堂、金巴厘集团等头部企业,覆盖金融、广电、 3C、美护、文旅、政府、律所、酒水、教育、培训、医美等多个领域。企业基于魔珐有言生成的视频,用在品牌推广、社媒运营、产品营销、企业内训、广电传媒、知识分享、K12教育、电商、本地生活等场景。
(魔珐有言生成的酒店欢迎介绍视频截图)在视频已成为信息传播的主要载体时,企业正在积极抓住视频化的机遇:
“刘强东数字人”出道,周鸿祎、雷军等企业家直播颠覆行业表明,每个企业家以及高管都将用数字人与用户沟通;
家电3C汽车等行业正在从“一年一场发布会、旗舰产品才有发布会”,升级到“天天都有发布会、款款产品都有发布会”的营销新阶段,在线发布会日益盛行,高成本的真人录制模式必将被数字人发布会取代;
淘宝、京东等电商平台的商品介绍页面以及产品使用手册已全面视频化。如何让商家每一个商品都拥有视频手册,以吸引用户下单和提升售后体验,正在成为电商行业攻克的新难题;
在直播带货盛行的今天,成本巨高的达人直播已不适合大多数企业,“店播”成为主流,低成本且全年无休的数字人店播日益受商家欢迎;
金融行业全面在线化,“数字虚拟经理“成为在线金融服务的标配,可互动、可服务的数字人客服正在被引入到更多银行等金融App;
自媒体全面拥抱视频化浪潮,不愿意或者不适合或者没时间出镜的博主,正在探索用数字人来打造自己的3D数字人虚拟主播;
……
只要是创作视频的场景,都是3D视频AIGC应用的潜在场景。在这样的背景下,魔珐有言被许多企业抢先试用,且用了起来。以海尔集团为例,有言已经深度融入了海尔集团的中台系统,作为AIGC工具赋能海尔营销、平台服务、研发、电商、数字化等各个业务线。应海尔集团需求,魔珐有言首批已为其开通100个有言账号,提供给6大职能部门约400多人使用,两个月以来一共生产了共计600多支总时长达近3000分钟的各业务线视频,平均每日生产视频数量达到30多支,其中培训类视频制作成本降低了50%。
(图源:魔珐有言官网)
企业为什么能将魔珐有言用起来?原因无他:基于魔珐有言进行3D视频AIGC,不只是可以大幅降低视频制作成本,更可在更短时间生成更多3D视频,进而更好地拥抱视频化浪潮。由于魔珐有言可以实实在在给企业解决问题,实现大规模低成本的3D视频生成、企业也愿意为此付费,这也让魔珐有言成为第一款跑通商业模式的视频AIGC产品。
面对新技术,人们习惯高估其短期爆发力,却低估长期应用价值。在一些媒体推波助澜下,当下人们对AIGC以及大模型技术有诸多误解,期待过高,甚至以为其无所不能且可“一键使用”。当一些企业在试图寻找AIGC产品,往往发现这些产品并未未真正产品化,不过是AIGC的半成品,于是往往会“大失所望”,甚至因此对AIGC技术“拔草”。这就像早期的VR设备一样,当技术不成熟、体验不完善、不完整就推给用户时,往往会差评如潮,劝退用户。更务实的魔珐有言无异于视频AIGC的一股清流:虽然看起来似乎不那么炫酷,但却能解决问题,这就足够了。
视频AIGC的杀手级应用要来了在技术发展进程中,技术产品化、产品商用化是技术落地的两大环节,前者让技术有落地场景,后者则可通过商业回报反哺技术投入,降低技术成本,给技术普及奠定基础。在技术不断发展的进程中,都会出现一个杀手级应用出现的“奇点时刻”,用户规模大规模增长、技术成本数量级降低、用户体验也会得到显著提升,技术发展由此从量变走向质变。
纵观历史上每一次技术变革,从孕育到爆发都会经历相似的曲线,其中最关键的一个节点就是杀手级应用的出现:如果一直没有出现,这项技术往往会被打入冷宫;一旦杀手级应用出现,这项技术就将走向彻底的爆发。
在3G网络的发展中,iPhone是杀手级应用,它给了用户使用3G网络的理由;
在移动互联网发展中,微信是杀手级应用,它让每个人都有在手机购买流量上网的冲动;
在4G网络发展中,抖音是杀手级应用,人们需要更快的网络来看流程的直播和高清的视频;
在深度学习发展中,Siri是杀手级应用,人们第一次体验到了用自然语言与机器交互的奥妙;
在电动车发展中,特斯拉Model S是杀手级应用,它开启了电动车普及的宏图篇章;
2024年,行业一直在讨论,AIGC以及大模型的杀手级应用到底是什么?在罗超Pro看来,一款杀手级应用必须具备如下特征:
1、商用潜力大,有刚需,被用起来,有人愿意买单。
在百度百科中,杀手级应用(Killer Application)是指某个非常有用的计算机程序,并且是消费者愿意为这个程序而为技术买单。是的,“非常有用”,有用到消费者愿意因为它而“买单”某项技术,这是关键——这里的“买单”不一定是付费,也可以是免费但要承担“看广告”等其他成本。
在短视频直播爆发前,很多用户并没有升级到4G网络的欲望,因为使用3G网络足够了,短视频直播的出现,让人们愿意为4G花钱,成为4G爆发的前提。如今,数百家企业付费购买也足以说明有言具备“用户愿意买单”这一特征,反观其他主流AIGC产品,则大都难以“卖钱”,比如Sora依然是Demo类的非商用概念产品,ChatGPT因缺乏真实场景难以被大规模使用。
2、产品足够好用易用,低门槛吸引更多人用。
其实在iPhone出现前,市场上就已有诺基亚、黑莓等功能手机以及PDA(掌上电脑),它们可以拍照、可以听音乐,甚至可以安装手机版QQ等软件,还能玩一些简单的游戏,然而因为鼓捣门槛高这些设备只能在发烧友中普及。通过iOS+AppStore,iPhone给用户提供前所未有简单易用的智能移动设备使用体验,开创了智能手机这一革命性品类。
在有言出现前,市面上也有一些数字人创作平台或者2D数字人工具,然而却不够好用且生成的视频质量差。因为只有人物唇形的AIGC,其他数字人动态则只能依靠录制视频片段的重复播放,因此讲解内容单一枯燥,且因为依靠录制视频,所以数字人动作肢体都无法被修改和AIGC生成,无法被用作生产工具。有言提供了一站式3D视频生成服务,3D虚拟人动作、表情都为AIGC生成,生成内容流畅生动。此外有言AIGC生成的3D视频可靠、可控、可编辑,使用门槛低,哪怕没有经过专业剪辑训练的人也可以上手,真正做到了傻瓜式的3D视频生成,解决了企业日常的视频生成问题。
(魔珐有言生成的剃须刀种草视频)
特别值得一提的是,除了企业/组织的视频创作外,有言创作的视频还可被应用在更广泛的场景,比如知识分享、社交互动、工作汇报等。据魔珐科技透露,有言几个月后将上线3D虚拟人AIGC功能,用户甚至只需上传几张照片就能即刻生成个人的3D虚拟人视频,对此罗超Pro将保持密切关注。
3、产品的商业模式能跑通,可以获取源源不断的收入。
在特斯拉2012年推出第一款Model S时,它已成立9年。在2008年,特斯拉就交付了第一款纯电动汽车Roadster,然而因为体验不成熟、价格极昂贵(当时要14万美元起)、市场认知弱等原因未能普及,当时的特斯拉经营困难,差点卖给Google。Model S的大获成功让特斯拉构建了商业正循环,彻底扭转了不利局面。
因此,商业模式跑通是杀手级应用的另一特征:一方面要有人愿意买单,另一方面用户愿意付出的成本可覆盖生产研发以及运行的成本。唯有如此,产品才可以赚取收入来反哺技术,让技术不断精进持续提升用户体验,同时更大规模地推动技术成本降低,进而形成正循环效应。AIGC技术更是如此,用的人越多越智能、越便宜,只有商业化才能促进AIGC产业链形成规模效应降本,才能获取用户反馈不断驱动技术进化。
(图源:魔珐有言官网)魔珐有言正好具备以上三大特征,是视频AIGC潜在的杀手级应用,在未来有望成为企业视频制作的标配工具,带动AIGC技术走向更大规模的爆发、更大程度的普及。在视频AIGC的浪潮中,魔珐有言不是最炫酷的玩家,但它却走了一条更务实的路。结合中国市场优势做更接地气的应用级产品,是许多中国科技公司践行成功的路,我也相信魔珐科技有言正走在正确的道路上。