撰文|王硕果
编辑|鄢子为
华为哈勃低调入股的两家大模型公司,接连发布新动态。
8月中旬,面壁智能宣布,旗下大语言模型MiniCPM系列,自2月面世以来,累计下载量已超百万。
7月底,生数科技面向全球,上线文生视频大模型Vidu,性能对标Sora。
李大海(左)、唐家渝
面壁智能和生数科技,分别成立于2022年、2023年,核心团队均来自清华大学。面壁智能CEO,为知乎前CTO李大海;生数科技CEO,是本硕就读于清华计算机系的唐家渝。
AI赛道火热,华为哈勃看好这两位青年才俊的潜力。
新锐组队
哈勃投资是华为全资控股的投资机构。
据企查查,其有两个主体,分别为哈勃科技投资有限公司、深圳哈勃科技投资合伙企业。
此前,华为哈勃的投资,聚焦硬科技方向,入股多家半导体芯片企业,今年接连扶植两家清华新锐,显示出对AI赛道的重视。
据IT桔子数据,哈勃今年接连向人工智能领域下注,投资金额累计达1.32亿元。
在大模型方向,其偏爱名校精英。
入股的两家公司,创始团队结构相似,均背靠清华大学。
生数科技的核心成员来自清华大学人工智能研究院,面壁智能的创始团队脱胎于该校自然语言处理实验室(THUNLP)。
一众清华面孔组成生数科技高层。除CEO外,其首席科学家由清华人工智能研究院副院长朱军担任,CTO鲍凡是唐家渝同门师兄、朱军的课题组成员。
去年6月至8月,生数科技连续完成两轮融资,累计获得上亿元。今年6月,哈勃斥资入股,参与其A+轮融资。
面壁智能的成长路径类似。
其联合创始人刘知远,是清华大学计算机系博导,研究方向为计算机自然语言处理;公司CTO曾国洋,今年26岁,是竞赛保送生,大二就进入清华自然语言处理实验室。
据李大海介绍,面壁智能科研团队共有100多人,清北毕业员工数量占比高达80%,平均年龄仅为28岁,在权威期刊会议发表论文百余篇。
创立面壁智能前,李为知乎CTO,从零开始为平台搭建搜索和推荐业务,发起AI“智能社区”,增加月活跃用户数。
去年,ChatGPT 火爆,所有人都在谈论AGI(人工通用智能),他跟该公司核心成员都聊了一遍。确认AGI是每个人的信仰后,果断加入。
老东家支持其创业,同年4月,面壁智能获得知乎数千万元人民币的投资。一年后,哈勃入股。
接连推新
两家创业公司,在较短时间内,均推出了新产品。这是吸引华为哈勃等机构投资的重要原因。
4月下旬,生数科技联合清华大学,发布视频大模型——Vidu。7月底,Vidu面向全球上线,开放文生视频、图生视频两大核心功能,提供4秒和8秒两种时长选择,分辨率最高达1080P。
Vidu生成一段4秒片段,只需30秒。目前用户直接使用邮箱注册,即可上手体验Vidu。
据介绍,Vidu生成视频流畅连贯,没有明显的插帧现象,且镜头语言丰富,可切换远景、近景、特写等不同镜头。
“Vidu在16秒长期保持和语义理解等方面表现得非常突出。”生数科技首席科学家朱军评价道。
面壁智能也推新动作不断。
5月,其大模型Luca面世。李大海表示,Luca的多项语言模型能力与ChatGPT相当。
同月,面壁MiniCPM-V2.0上新,可以精准识别细节纷繁的街景,还能识读2300多年前的清华简上的古老字迹。
早在去年,面壁智能就推出了ChatDev智能软件开发平台。有制作小游戏、网站开发、创意设计等需求的用户,只需要通过ChatDev描述项目名称和相关想法,便可快速实现。
用李大海的话来说,一位普通用户“只需要一杯可乐的时间,用不到一美元的成本”,就能做出一个小软件。
商业化初步落地。面壁智能已携手招商银行、数科网维、知乎等,将技术应用于金融、教育、智能终端等场景。
举个例子,6月底,该公司研发的人工智能辅助审判系统,已在深圳市中级人民法院上线运行,覆盖立案、阅卷、庭审、文书制作等流程。
自今年1月试运行以来,该系统辅助立案29.1万件;辅助生成文书初稿1.16万份。
独辟蹊径
李大海与唐家渝,有个相同特质,不迷信前人走过的路。
比如,GPT强调“大力出奇迹”,而面壁团队的做法,是通过小模型预测大模型性能:先在参数量为0.009B到0.03B的模型上做训练,再外插到2.4B的模型上预测性能,最后,训练2.4B的模型。
这一方法事半功倍,先在小模型上做实验、调参数,可以降低训练成本。
公司成立之前,作为北京智源人工智能研究院“悟道”项目的成员,面壁团队从2020年就开始训练语言大模型。
过往经验,让他们知道大模型需要什么样的数据。
“大家很容易陷入一个误区,过度关注数据的绝对量。其实,数据的质量,如何利用数据,以及对数据的认知才是更重要的事。”曾国洋称。
因资源受限,团队很早就使用分布式加速、参数微调等方法,降低成本。2022年,面壁团队参数微调的工作,还发表在Nature子刊上。
生数科技的打法类似。
技术路线上,生数采用的是和Sora一样的融合架构,但在产品路径上,两者不同。
Sora团队选择all in长视频,其背后有Open AI的技术实力,以及微软的算力支持。初创公司生数科技的条件,无法与之媲美。
唐家渝团队选择从2D图像开始,再拓展到3D和视频领域。
视频本质上是图像在时间序列上的扩增,可以看成连续多帧的图像,在图像上的工程化工作,比如数据的收集、清洗、标注以及模型的高效训练等经验,是可以复用的。
整个2023年,生数主要资源都放在了图像和3D上。到今年1月,才上线4秒短视频生成。2月,Sora发布之后,该公司进展加速,4月可生成16秒短视频。
大模型赛道,国内外各团队竞相“秀肌肉”。这两支清华系团队,刚开始热身,期待跑出不俗的成绩。
届时,入股早的华为哈勃,有望获得超额收益。